大数据
风少年~
这个作者很懒,什么都没留下…
展开
-
flume java.lang.IllegalArgumentException: Timestamp must be positive
报错:java.lang.IllegalArgumentException: Timestamp must be positive at com.google.common.base.Preconditions.checkArgument(Preconditions.java:88) at org.apache.flume.tools.TimestampRou...原创 2020-03-02 14:57:29 · 734 阅读 · 0 评论 -
Hive on Phoenix
简单~第一步,参考官网http://phoenix.apache.org/hive_storage_handler.html#第二步,找到phoenix-xxxx-hive.jar第三步,Phoenix建表create table IF NOT EXISTS cz.testtb01 (IDCardNum INTEGER not null primary key, Nam...原创 2019-11-19 18:56:50 · 510 阅读 · 0 评论 -
hadoop 步步填坑
001坑:Windows平台Hadoop出现 Exception message: CreateSymbolicLink error (1314): ???????????网上的说法:https://stackoverflow.com/questions/28958999/hdfs-write-resulting-in-createsymboliclink-error-1314-a-requi...原创 2019-01-16 21:02:20 · 377 阅读 · 0 评论 -
Windows环境下hadoop安装和配置
第一步:下载文件1.hadoop各种版本下载:https://archive.apache.org/dist/hadoop/common/2.winutils下载 https://github.com/steveloughran/winutils 第二步:安装https://blog.csdn.net/wangaz521/article/details/79717177 ...原创 2019-01-16 21:13:09 · 273 阅读 · 0 评论 -
hive复制表结构
CREATE TABLE new_table LIKE old_table;原创 2019-03-04 11:11:59 · 1957 阅读 · 0 评论 -
Exception in thread "main" java.io.IOException: Trying to load more than 32 hfiles to one family of
遇见问题: 命令:hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /user/yz/zhaochao/duotou200/ neibudt_200_cols_hfile20190409_1 报错:Exception in thread "main" java.io.IOExcepti...原创 2019-04-10 14:24:02 · 798 阅读 · 0 评论 -
Hbase批量导入&批量删除
Hi: 小明:sir,我遇见一个需求,根据42万手机号码段生产全量的手机号。 大牛:what,那岂不是要生成42亿多手机号。 小明:yes,而且还需要每次随机提取一千万条,第二次提取不能包含上一次的手机号。 大牛:shit,good luck。 思考时间…… 大牛:管它三七二十一,一个循环跑去吧。然后提...原创 2019-04-01 12:11:37 · 1645 阅读 · 0 评论 -
Flink生成Hfile
提出需求: 团队为了统一技术栈,一致同意用Flink来进行对批和流计算统一处理。问题来了: Flink似乎相对spark来说还是很不完善,spark分分钟搞定的事情,在Flink里就需要动动脑子了。参考spark;object CreateHfile { def main(args: Array[String]): Unit = {...原创 2019-04-08 17:36:37 · 1665 阅读 · 9 评论 -
Hive UDTF 报错
报错:Status: FailedVertex failed, vertexName=Map 2, vertexId=vertex_1556099599099_3665_1_00, diagnostics=[Task failed, taskId=task_1556099599099_3665_1_00_000000, diagnostics=[TaskAttempt 0 failed, i...原创 2019-05-22 21:01:12 · 1302 阅读 · 0 评论 -
You may be missing the 'flink-hadoop-compatibility' dependency.
The program finished with the following exception:org.apache.flink.client.program.ProgramInvocationException: The main method caused an error. at org.apache.flink.client.program.PackagedPro...原创 2019-05-28 17:52:24 · 724 阅读 · 0 评论 -
windows本地开发MapReduce提交到集群
概述 准备 JDK安装及环境变量 参考:https://jingyan.baidu.com/article/f96699bb163475894e3c1be4.html 下载hadoop安装包 链接:https://archive.apache.org/dist/hadoop/common/备注:我选用的是hadoop-2.6.5.tar.gz Hadoop环境变量...原创 2019-01-17 17:51:53 · 569 阅读 · 0 评论 -
数据库各派系起源、应用场景和选择指南
from:http://tech.it168.com/a2015/0303/1708/000001708320.shtml一、纵览各种数据模型 这些模型的分类方法来自于Emil Eifrem 和 NoSQL databases。 1. 文档数据库 源起:受Lotus Notes启发。 数据模型:包含了key-value的文档集合转载 2017-11-03 17:09:14 · 1233 阅读 · 0 评论 -
初始Titan
from:http://blog.csdn.net/u010039929/article/details/77775100?locationNum=1&fps=1 Titan 是一个可扩展的图形数据库,完美结合HBase、Cassandra、BerkeleyDB提供存储功能,ES、Lucene、Solar提供索引功能,可利用Hadoop计算框架对图数据进行分析、统计。经转载 2017-11-02 14:37:40 · 408 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin
问题: 每个人安装hadoop时,都可能会遇见这个问题“WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable“,然后转手就去百度。也不知道网上怎么传的,都说是版本问题,各种编译就上来了原创 2017-11-07 11:20:50 · 615 阅读 · 0 评论 -
大数据学习笔记1000条
笔记汇总1. Zookeeper用于集群主备切换。2. YARN让集群具备更好的扩展性。3. Spark没有存储能力。4. Spark的Master负责集群的资源管理,Slave用于执行计算任务。5. Hadoop从2.x开始,把存储和计算分离开来,形成两个相对独立的子集群:HDFS和YARN,MapReduce依附于YARN来运行。6. YARN可原创 2017-10-13 09:53:41 · 3159 阅读 · 0 评论 -
一文教你看懂大数据的技术生态圈 Hadoop,hive,spark
from:http://bigdata.qq.com/article?id=2331 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,转载 2017-11-08 14:32:47 · 394 阅读 · 0 评论 -
TinkerPop中的遍历:图的遍历策略
from:https://www.cnblogs.com/myitroad/p/7778514.html遍历策略一个TraversalStrategy分析一个遍历,如果遍历符合它的标准,可以相应地改变它。遍历策略在编译时被执行,并构成Gremlin遍历机的编译器的基础。有五类策略分列如下:decoration: 在应用程序级别的特性可以嵌入到遍历逻辑中optim转载 2017-11-09 10:10:20 · 864 阅读 · 0 评论 -
The GraphComputer翻译及案例
from:http://blog.csdn.net/silentwolfyhThe GraphComputerBulkLoaderVertexProgram———————————————————————————-The GraphComputer TinkerPop3提供了两种与图形交互的主要方式:在线事务处理(O转载 2017-11-09 10:22:07 · 979 阅读 · 0 评论 -
Titan Graph DataBase 研究 (二)----Titan Server 发布
from:http://blog.csdn.net/q2365921/article/details/54744446上一篇讲到如何搭建titan,那么今天就来说说如何进行Titan Server的发布,以及如何插入数据 由于上篇讲的是如何搭建基于hbase-solr的titan graph database,那么直接复用上篇的配置文件。 /conf/titan-hba转载 2017-11-02 14:08:37 · 305 阅读 · 0 评论 -
Titan Graph DataBase 研究 (三)----Java API使用 上
from:http://blog.csdn.net/q2365921/article/details/54911890上一篇说道了如何TitanServer的发布,那么这一章就来说说如何用JavaApI操作Titan,话不多说直接上代码 pom.xmlproject xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=转载 2017-11-02 14:09:48 · 314 阅读 · 0 评论 -
Titan Graph DataBase 研究 (一)----环境搭建
from:http://blog.csdn.net/q2365921/article/details/54616249[-]弹性和线性可伸缩性的增长数据和用户群数据分布和复制和容错性能多数据中心的高可用性和热备份支持 ACID事务和 最终一致性支持各种 存储后端支持全球 图表数据分析 报告和ETL通过集成与大数据平台支持地理数值范围并通过全文搜索Titan本身集成转载 2017-11-02 13:59:23 · 550 阅读 · 0 评论 -
大数据面试题及答案-汇总版
大数据面试题及答案汇总版 当前版本:Ver 1.0制作单位: 编写人员:审 核 人: 签 收 人: 签原创 2017-11-02 14:22:57 · 203772 阅读 · 14 评论 -
大数据方案关键因素
大数据方案关键因素编号类别问题1数据存储规模与数据类型1-1:数据存储规模多大?1-2:有哪些数据类型?不同类型的数据,需要何种技术进行处理?2数据可获得性与质量2-1:数据源是否可获得?2-2:对获取困难的数据源,需要何种政策支持才能获得?2-3:采用何原创 2017-08-05 14:29:46 · 571 阅读 · 0 评论