大数据
文章平均质量分 75
Nryana0
这个作者很懒,什么都没留下…
展开
-
hadoop es集群开发踩过的坑
开发中1.对于分区表分区的粒度如果按照时间来分的话要分到业务需求的最小,比如有对小时数据的汇聚分区表就直接分区到小时2.对于字段多运算复杂的汇聚要使用临时表分步处理最后汇聚处理好的临时表原子化操作3.尽量尽早的过滤数据,减少每个阶段的数据量4.看单个sql引起的job数量要越少越好5.数据倾斜当小表关联一个大表时很容易会出现数据倾斜可以用MapJoin解决如果是小表的时候自动选择Mapjoin的设置set hive.auto.convert.join = true;设置大表小表的阀值se原创 2020-07-17 16:32:33 · 306 阅读 · 0 评论 -
flink kafka flume 从开发到部署遇到的问题及解决方案
最近遇到了比较多的中间件的环境问题整理了些注意事项启动顺序 zookeeper -> kafka -> flink - > flink提交的job ->flume kafka的快照保存时间的设置 log.retention.hours=168(sever.properties)设置时间长很浪费资源flink任务提交前kafka保存的数据并不会被f...原创 2020-03-20 17:34:02 · 745 阅读 · 0 评论 -
flume+kafka(zookeeper)常用命令
kafka启动命令./kafka-server-start.sh ../config/server.propertieskafka 创建生产者命令./kafka-console-producer.sh --broker-list IP:9092 --topic testkafka创建消费者./kafka-console-consumer.sh --bootstrap-server I...原创 2020-01-20 15:05:00 · 278 阅读 · 0 评论 -
Flume+kafka+flink+es 构建大数据实时处理
大数据目前的处理方法有两种:一种是离线处理,一种是实时处理。如何构建我们自己的实时数据处理系统我们选用flume+kafka+flink+es来作为我们实时数据处理工具。因此我们的架构是:flume集群kafka集群flink集群es集群其具体架构如图对于flume集群,它的作用就是采集数据并将数据提供给kafka集群,我们可以通过topic来实现。对于zoo...原创 2020-01-20 14:39:12 · 4071 阅读 · 0 评论