2015年09月_breeze_lsw

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 spark使用Hive表操作

spark Hive表操作之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作。比如说一个修改表分区的操作使用HiveServer的方式val tblName = "hive_table"def dropPartitions(tblName: String): Unit = { val HIVE_SERVER = "jdbc:hive2://192

2015-09-28 10:32:30 4544 3

原创部署ganglia3.7

环境centOS6.6 主机关闭iptable以前跑spark任务的时候经常发现有的节点运行速度不理想，于是便想通过ganglia监控集群来发现性能瓶颈，看看到底是cpu mem还是网络io的原因。一.安装epel源sudo wget http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm sudo

2015-09-26 20:54:17 1650

原创 spark standalone 读取 HDFS 数据本地性异常

spark读取hdfs数据Locality问题一.问题描述在分布式计算中，要做的是移动计算而不是移动数据，所以数据本地性尤其重要，然而我在spark任务中发现所有的任务的locality都是ANY,说明所有的数据都是走的网络IO,因为每台spark节点上同时也有hdfs的datanode,所以这很不正常。并且可以看到在没有没有shuffle的情况下，仅在数据读取阶段网络IO占用都很严重，可以看下ga

2015-09-24 15:05:06 2919 3

原创 spark join broadcast优化

在大量数据中对一些字段进行关联。举例ipTable：需要进行关联的几千条ip数据(70k) hist：历史数据（百亿级别）直接join将会对所有数据进行shuffle。使用broadcast将会把小表分发到每台执行节点上，基本就取消了shuffle的过程，运行效率大幅度提高。样本数据(2000w)性能测试对比小表没有进行broadcast进行了broadcast,可以看到连shuffle过程都省

2015-09-24 00:02:59 10672

原创 spark sql cache

1.几种缓存数据的方法例如有一张hive表叫做activity1.CACHE TABLE//缓存全表sqlContext.sql("CACHE TABLE activity")//缓存过滤结果sqlContext.sql("CACHE TABLE activity_cached as select * from activity where ...")CACHE TABLE是即时生效(eage

2015-09-22 21:58:21 14018 2

原创 spark小技巧－mapPartitions

与map方法类似，map是对rdd中的每一个元素进行操作，而mapPartitions则是对rdd中的每个分区的迭代器进行操作。如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。Demo实现将每个数字变成原来的2倍的功能

2015-09-21 16:03:00 57636 6

原创 python2.7使用ansible

升级python到2.7后$ ansible报错Traceback (most recent call last): File "/usr/bin/ansible", line 36, in <module> from ansible.runner import RunnerImportError: No module named ansible.runner和yum python

2015-09-17 16:37:20 6261

原创解决maven编译spark1.5报错问题

spark1.5发布了，赶紧去下了源码尝鲜git clone git://github.com/apache/spark.git -b branch-1.5然后输入命令进行编译./make-distribution.sh --tgz -Phadoop-2.4 -Pyarn -DskipTests -Dhadoop.version=2.4.0 -Phive -Phive-thriftserver -P

2015-09-11 13:38:08 4588

原创使用streaming window函数统计用户不同时间段平均消费金额等指标

场景现在餐厅老板已经不满足仅仅统计历史用户消费金额总数了，他想知道每个用户半年，每个月，每天，或者一小时消费的总额，来店消费的次数以及平均金额。给出的例子计算的是每5秒,每30秒,每1分钟的用户消费金额，消费次数，平均消费。数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}....制作kafka输入数据与我上篇文章相同

2015-09-09 11:48:17 2854 3

原创 spark streaming - kafka updateStateByKey 统计用户消费金额

场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额，我们可以使用updateStateByKey来实现从kafka接收用户消费json数据，统计每分钟用户的消费情况，并且统计所有时间所有用户的消费情况(使用updateStateByKey来实现)数据格式{"user":"zhangsan","payment":8}{"user":"wangwu","payment":7}....往kafk

2015-09-08 22:09:15 5214

spark_prometheus_metrics.json

博客https://blog.csdn.net/lsshlsw/article/details/82670508 spark_prometheus_metrics.json

2018-09-13

scala for spark

因为spark是用scala编写的，这里做了点总结，方便看spark源码。

2014-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人