自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark使用Hive表操作

spark Hive表操作之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作。比如说一个修改表分区的操作使用HiveServer的方式val tblName = "hive_table"def dropPartitions(tblName: String): Unit = { val HIVE_SERVER = "jdbc:hive2://192

2015-09-28 10:32:30 4544 3

原创 部署ganglia3.7

环境centOS6.6 主机关闭iptable以前跑spark任务的时候经常发现有的节点运行速度不理想,于是便想通过ganglia监控集群来发现性能瓶颈,看看到底是cpu mem还是网络io的原因。一.安装epel源sudo wget http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm sudo

2015-09-26 20:54:17 1650

原创 spark standalone 读取 HDFS 数据本地性异常

spark读取hdfs数据Locality问题一.问题描述在分布式计算中,要做的是移动计算而不是移动数据,所以数据本地性尤其重要,然而我在spark任务中发现所有的任务的locality都是ANY,说明所有的数据都是走的网络IO,因为每台spark节点上同时也有hdfs的datanode,所以这很不正常。并且可以看到在没有没有shuffle的情况下,仅在数据读取阶段网络IO占用都很严重,可以看下ga

2015-09-24 15:05:06 2919 3

原创 spark join broadcast优化

在大量数据中对一些字段进行关联。举例ipTable:需要进行关联的几千条ip数据(70k) hist:历史数据(百亿级别) 直接join将会对所有数据进行shuffle。使用broadcast将会把小表分发到每台执行节点上,基本就取消了shuffle的过程,运行效率大幅度提高。样本数据(2000w)性能测试对比小表没有进行broadcast进行了broadcast,可以看到连shuffle过程都省

2015-09-24 00:02:59 10672

原创 spark sql cache

1.几种缓存数据的方法例如有一张hive表叫做activity1.CACHE TABLE//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...")CACHE TABLE是即时生效(eage

2015-09-22 21:58:21 14018 2

原创 spark小技巧-mapPartitions

与map方法类似,map是对rdd中的每一个元素进行操作,而mapPartitions则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。Demo实现将每个数字变成原来的2倍的功能

2015-09-21 16:03:00 57636 6

原创 python2.7使用ansible

升级python到2.7后$ ansible报错Traceback (most recent call last): File "/usr/bin/ansible", line 36, in <module> from ansible.runner import RunnerImportError: No module named ansible.runner和yum python

2015-09-17 16:37:20 6261

原创 解决maven编译spark1.5报错问题

spark1.5发布了,赶紧去下了源码尝鲜git clone git://github.com/apache/spark.git -b branch-1.5然后输入命令进行编译./make-distribution.sh --tgz -Phadoop-2.4 -Pyarn -DskipTests -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -P

2015-09-11 13:38:08 4588

原创 使用streaming window函数统计用户不同时间段平均消费金额等指标

场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了,他想知道每个用户半年,每个月,每天,或者一小时消费的总额,来店消费的次数以及平均金额。给出的例子计算的是每5秒,每30秒,每1分钟的用户消费金额,消费次数,平均消费。数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}....制作kafka输入数据与我上篇文章相同

2015-09-09 11:48:17 2854 3

原创 spark streaming - kafka updateStateByKey 统计用户消费金额

场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}....往kafk

2015-09-08 22:09:15 5214

spark_prometheus_metrics.json

博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

2018-09-13

scala for spark

因为spark是用scala编写的,这里做了点总结,方便看spark源码。

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除