![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark调优
iteye_15241
这个作者很懒,什么都没留下…
展开
-
Spark任务拆分-并发问题
现有的结构是Spark从HBase中提取数据,进行计算操作。Spark的并发是由:可用CPU核数*Worker数量,来确定上限的,这种情况针对于单节点。并发数还受到RDD的分区数量影响的,说回Hbase的话,就是受到Region数影响,基本与其一致; 所以如果在HbaseConf中确定的Region数量只有1个的话,那么会出现Spark单线程执行的情况;这个时候可以考虑...原创 2016-04-28 18:05:26 · 963 阅读 · 0 评论 -
SPARK standlone安装配置
集群一共有3台机器,集群使用hadoop用户运行,3台机器如下:1DEV-HADOOP-01192.168.9.1102DEV-HADOOP-02192.168.9.1113DEV-HADOOP-03192.168.9.112 配置集群间hadoop用户的无密码登录配置每台机器的/etc/hosts安装JD...原创 2016-06-27 12:11:34 · 131 阅读 · 0 评论 -
SPARK动态添加节点
spark集群使用hadoop用户运行,集群机器如下:1DEV-HADOOP-01192.168.9.110Master2DEV-HADOOP-02192.168.9.111Worker3DEV-HADOOP-03192.168.9.112Worker 现在需要添加一台192.168.9.113 机器名DEV-HADOOP-...原创 2016-06-27 12:12:20 · 576 阅读 · 0 评论 -
SPARK启动历史任务查看
SPARK历史任务查看需要一下配置: 修改spark-defaults.conf配置文件 spark.eventLog.enabled true spark.eventLog.dir hdfs://192.168.9.110:9000/eventLogs spark.even...原创 2016-06-27 12:13:23 · 544 阅读 · 0 评论 -
Prime_DSC_MentionCalcSpark性能调优
Prime_DSC_MentionCalcSpark系统简介 实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数 存在问题 : 对于大数据量的计算时间较长. 解决思路 : 把HBase结果反射成Twee...原创 2016-07-18 11:02:49 · 168 阅读 · 0 评论