- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 hive任务,一些map长时间无法结束
多线程同步写ES切分文件在这篇文章中使用代码切割文件,这里尝试使用split命令切分文件。split -l 250000 all_rate.csv 25万行为分界线分割文件import org.elasticsearch.action.bulk.BulkRequestBuilder;import org.elasticsearch.client.transport.Tra...
2018-08-20 23:51:17 5065
原创 Elasticsearch数据全量导入HBase,scroll的正确使用姿势,HBase数据到Hive
1、代码相关文章: elasticsearch数据到hive、es-hadoop6.3.0 Hbase Java API简单实践(附源代码解释) 按照惯例,先上代码 (代码还有很多可以优化的地方,待正式工作了,有了更海量的需要处理的数据,更复杂的应用场景,我再回来更新此文。)只贴出Es用scroll方式读取数据以及批量写入HBase的核心代码,其他工具类、方法,比如es、HBase...
2018-08-16 22:31:57 2828 1
原创 ElasticSearch多线程写入实战(一)多线程同步异步写入ES,模拟hadoop文件拆分处理,join与CountDownLatch的区别,多线程读写小练习
数据预处理1、网站爬取数据,写为csv 2、添加表头 sed -i ‘1i\时报错: sed: -i may not be used with stdin mac中应该写为:【mac自带的sed命令,是基于bsd的,所以与Linux-like下常用的gnu不一样】sed -i "" '1i\insert value here'
2018-08-09 00:47:30 7661
原创 elasticsearch数据到hive、es-hadoop6.3.0
同一模块中日志输出到不同文件elasticsearch数据到hive思路1思路2安装ES-hadoop添加jar包到hivees数据导入到hive的最基础设置es数据导入到hive进阶之mapping设置es数据导入到hive进阶之array相关文章参考同一模块中日志输出到不同文件需求:项目的同一个子模块下,已经配置过日志输出,现在...
2018-08-06 00:17:44 6820 2
Stream Processing with Apache Flink完整书签高清pdf和epub版,以及评价超高的Streaming Systems
2019-06-13
Flink Forward 201809 PPT berlin
2018-10-03
TensorFlow实战PDF+代码,TensorFlow实战Google深度学习框架+代码
2017-09-19
最新MySQL驱动(5.7可用)mysql-connector-java-5.1.40.zip
2017-02-12
李兴华oracle学习笔记(全)PDF
2017-02-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人