hadoop
jiandequn
这个作者很懒,什么都没留下…
展开
-
sqoop2(sqoop-1.99.7)的安装部署
Sqoop 是一个开源工具,主要用于在Hadoop和传统的数据库(Mysql, Oracle,等)进行数据传递,可以将一个关系型数据库中的数据导入Hadoop 的HDFS中,也可以将HDFS中的数据导出到关系型数据库中。之前总结了sqoop1的部署安装,接下开对于hadoop-2.6.版本以上 sqoop1不支持,必须使用sqoop2,接下来总结一下sqoop2的部署和填坑一、下载sqoop包...原创 2020-04-13 12:04:57 · 766 阅读 · 0 评论 -
sqoop1.4.7部署及其使用之旅
为什么使用sqoop? 1、对于hadoop数据的处理有时候要用户关系型数据库(mysql,oracle)中的数据进行清洗,或处理的数据需要导入到关系型数据库中; 2、由于没有工具的支持hadoop的hdfs和数据库之间的交互,手工写map-reduce中来处理复杂繁琐,维护成功高。 3、sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出);开始部署...原创 2020-03-31 17:27:34 · 905 阅读 · 0 评论 -
Pig之自定义UDF的开发和使用
本文对的hadoop中日志,用pig进行处理,抽取样例日志格式如下:2019-11-11 12:24:10.472 INFO [resin-port-9001-48][ContentOperationController.java:367] - Collection events:eventsType=operationPage;mac=08674E4296AF;sn=12033500205...原创 2020-03-02 10:57:11 · 307 阅读 · 0 评论 -
hive之AbstractSerDe自定义表的解析
对于日志文件中非结构性行的格式化处理成表结构数据;如下;需解析key,value 2019-10-03 00:53:03.624 INFO [resin-port-9001-42][ContentOperationController.java:367] - Collection events:eventsType=operationPage;mac=88CC4525E50C;sn=12082...原创 2020-02-28 14:51:23 · 734 阅读 · 0 评论 -
hadoop定位hdfs文件块异常和修复Cannot obtain block length for LocatedBlock
1、mapreduce任务处理时,产生异常信息,不能获取块的长度信息,错误日志如下: org.apache.hadoop.mapred.TaskAttemptListenerImpl: Diagnostics report from attempt_1574843806023_0008_m_000002_3: Error: java.lang.RuntimeException: org.ap...原创 2019-11-28 14:34:24 · 1886 阅读 · 0 评论
分享