Hadoop
Light Gao
目前执职于360数科,大数据领域拥有8年的从业经验。欢迎关注我的微信公众号“大数据工坊”获取更多专业资讯和交流机会。专注于大数据平台、分布式计算性能、数据存储以及新技术的研究与应用。
展开
-
最通俗易懂的解释hbase热点问题rowkey设计原则region分区及解决方案
关于热点问题,我简单陈述容易理解:我们最开始hbase创建表默认是一个region,而我们所谓的热点问题其实就是对某一个region的过量访问造成的Hbase当发现一个region存储数据量大于阈值(默认10G)时,会分裂region变成两个,此时访问此表数据会被阻塞,直到分裂成功才可继续访问综上问题,我们需要在建表的时候就预分区(分区就是region),分区语句例如:create ‘te...原创 2020-02-21 14:51:38 · 4631 阅读 · 0 评论 -
大数据:Windows下配置flink的Stream
对于开发人员来说,最希望的是需要在windows中进行测试,然后把调试好的程序放在集群中运行。下面写一个Socket,上面是监控本地的一个运行端口,来实时的提取数据。获取视频中文档资料及完整视频的伙伴请加QQ群:947967114下面是一段代码:import org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink...原创 2018-11-26 11:48:33 · 331 阅读 · 0 评论 -
SparkUI详解,SparkUI是个好东西啊
SparkUI是个好东西,可以很清楚的看到集群中的几个worker节点还能看到每个worker节点的CPU核数和内存 甚至还能看一个job作业运行的时候哪些executor运行,哪些节点运行和本地性级别!例如:再点击每个worker节点我们通过spark-shell运行作业,要想查看通过sparkshell运行的作业可以点击spark-shell如果想看每个作业的详细信息可以点...原创 2019-04-24 17:37:37 · 1203 阅读 · 0 评论