![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
7 大数据
PaperAgent
这个作者很懒,什么都没留下…
展开
-
Python连接Kafka问题汇总
1、NoBrokersAvailable: NoBrokersAvailable-Kafka Error解决方法:连接时指定版本producer = KafkaProducer(bootstrap_servers=['localhost:9092'],api_version=(0,1,0))参考链接:https://stackoverflow.com/questions/35689...原创 2019-12-26 15:24:26 · 2863 阅读 · 0 评论 -
hive任务RMContainerAllocator: REDUCE capability required is more than the supported max container
hive任务执行时:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTaskHadoop job information for Stage-1: number of mappers: 1; number of reducers: 12019-12-17 09:49:08...原创 2019-12-17 16:52:04 · 994 阅读 · 0 评论 -
Hadoop分布式环境下的抽样技术
1. 问题由来Google曾经有一道非常经典的面试题:给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等)?这道题的解法非常多,网上讨论也非常热烈。本文要讨论的是,这个问题是从何而来,有什么实用价值?自从有了Hadoop之后,该问题便有了转载 2013-09-14 16:36:27 · 821 阅读 · 0 评论 -
如何评价《Big Data:大数据时代》这本书?
出处:http://www.zhihu.com/question/20666694花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。转载 2013-09-14 16:11:19 · 3673 阅读 · 1 评论 -
Python3读取Hbase包hbase-thrift异常处理
python连接hbase需要用到hbase-thirft类库,但是hbase-thirft只在python2下能正常使用,如果在python3下,会报错,主要有一下几个错误 : except IOError, io: invalid syntax ModuleNotFoundError: No module named 'ttypes' NameError:name ...原创 2019-09-30 17:50:20 · 1104 阅读 · 6 评论 -
flume实践(二):TAILDIR多文件采集到对应HDFS文件
需求: 不同服务产生不同的日志文件,例如: server/test_a_20181217.log server/test_b_20181217.log;日志是不断写入的 flume采集日志到对应HDFS文件夹里,即 : server/test_a_20181217.log ——> /user/hive/logs/ymd=20181217/testa/xxxx.txt serv...原创 2018-12-17 23:27:55 · 1274 阅读 · 0 评论 -
Impala(四):Python3.6连接Impala的No module named _ssl
1、问题描述: Python3.6连接Impala的No module named _sslPython2是没有这个问题的>>> from impala.dbapi import connectTraceback (most recent call last):File "<stdin>", line 1, in <module>File ...原创 2018-09-30 10:59:11 · 6483 阅读 · 5 评论 -
Impala(三): Python Impala Encountered: STRING LITERAL
记录一个坑,python连Impala,插入数据到Kudu,会有特殊字符问题,冒号,涉及到时间格式与ip地址等场景>>> >>>from impala.dbapi import connect>>> >>>host='xx.xx.xx.xx'>>> >>&原创 2018-09-13 19:53:12 · 3000 阅读 · 0 评论 -
Impala(二)Impala负载均衡
如有不妥之处,欢迎随时留言沟通交流,谢谢~Impala分为是三个组件,statestored/catalogd和impalad,其中statestored和catalogd是单点的,没有高可用的需求,因为这两个实例是无状态的,本身不存储任何数据,例如catalogd的数据存储在第三方数据库(例如mysql中),statestore的数据全都存储在内存中,可以通过简单的主备的方式来实现高可用,本...原创 2018-07-25 20:22:00 · 939 阅读 · 0 评论 -
flume实践(一):配置+单文件追加采集
一、flume采集到HDFS1、flume安装准备 jdk1.8安装: https://www.cnblogs.com/zeze/p/5902124.html java -version 2、flume安装 下载 wget http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.8.0/apache-flume-1.8....原创 2018-12-17 22:34:42 · 663 阅读 · 0 评论 -
Impala(一):Impala+Kudu+HDFS教程
本文部分引用其它博客,部分原创,如有不妥之处,欢迎随时留言沟通交流,谢谢~1、Impala语法增删改查2、Impala常用函数2.1 、字符串函数参考链接: https://blog.csdn.net/qq_24699959/article/details/798636642.2 、 数值函数参考链接: https://blog.csdn.net/qq_24699959...原创 2018-07-25 15:46:40 · 6003 阅读 · 0 评论