![](https://img-blog.csdnimg.cn/20200330093738213.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
big data
TruthK
这个作者很懒,什么都没留下…
展开
-
spark streaming调优
防止流量激增,导致程序过载关于流量激增,可以通过设置Spark Streaming Backpressure。反压机制(back-pressure),通过动态控制数据接收速率来适配集群数据处理能力。属性“spark.streaming.backpressure.enabled”来控制是否启用backpressure机制,默认值false,即不启用。 sparkConf.set("spark....原创 2020-03-10 15:44:01 · 622 阅读 · 0 评论 -
python连接redis哨兵集群
SENTINEADDRESS = [(‘ip1’, 26379), (‘ip2’, 26378), (‘ip3’, 26377)]上面的内容,请根据自己的环境进行修改import redisfrom redis import WatchErrorfrom redis.sentinel import Sentinelfrom redis import WatchErrorMYSETIN...原创 2019-12-26 16:08:34 · 1706 阅读 · 0 评论 -
hive,redis杂记
陆续归纳,整理1.hive优化1.1建表优化建表语句demo,存储格式为ORC,并且设置索引,*“orc.bloom.filter.columns”=“distinct_id”,*这一句的意思是 把 distinct_id这一列作为索引。参考链接:ORC原理及查询优化create table if not exists test.cust_events(event string,u...转载 2019-12-26 15:43:51 · 668 阅读 · 0 评论 -
使用jdbc连接带kerberos认证的hive
在处理这个问题的过程,遇到几个问题:HADOOP_HOME or hadoop.home.dir are not set出现这个问题是代码运行的环境没有设置环境变量HADOOP_HOME 或者指定 hadoop.home.dir,如果是在windoss上运行,远程连接linux服务器的,应该在windos上设置环境变量$HADOOP_HOME,在path中添加Hadoop的bin目录 。具体...原创 2019-12-26 15:13:53 · 7102 阅读 · 2 评论