2017年03月_Q博士

11月 08月 07月 06月 05月 04月 03月

原创 spark-streaming数据量从1%提升到全量实战

架构背景spark参数优化提高executor-cores大小调整executor-memorynum-executors设置首次处理减压策略x消息队列bug规避PHP端限制处理Action1的处理速度从1提升到10高峰期非高峰期状况描述从10提升到50高峰非高峰期状况描述采用pipeline提升redis的qps50提升到全量非高峰期下午时段高峰期

2017-03-29 15:11:58 5623

原创 spark-streaming stage夯住原因分析

现象任务执行中偶先stage停止不动但是我们点进去查看任务的时候发现，任务状态是SUCCESSED的查看日志发现有ERROR和WARN报出17/03/28 10:56:19 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one

2017-03-28 11:15:54 5338 5

原创 Spark mlib学习指南

翻译http://spark.apache.org/docs/latest/ml-guide.html机器学习库MLib指南MLib是运行在spark上的机器学习库，目的是为了方便使用scala语言进行机器学习。提供如下功能：ML算法:提供分类、回归、聚类和协作筛选等常用机器学习算子功能：特征提取、转换、降维,和选择管道线:构建、评估和调优工具缓存：保存和加载算子、模型和管道线工具集：线

2017-03-23 16:05:21 3083

原创流式计算框架调研

参考文章流式大数据处理的三种框架：Storm，Spark和Samza Storm和Spark Streaming框架对比基于Apache Samza，揭秘LinkedIn架构背后的技术分布式追踪系统架构与设计三大主流框架Apache Storm,Twitter公司推出Apache Spark,UC Berkeley推出Apache Samza,Linkedin推

2017-03-20 11:38:55 1324

原创 spark样例测试

spark on yarn计算平台已经搭建完成,下面来利用这个平台运行下官方的样例,样例全部在/home/work/spark目录下执行SparkPi ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master yarn –deploy-mode cluster examples/jars/spark-examples

2017-03-20 11:36:32 4118

原创 spark_on_yarn环境搭建

集群模式机器软件版本公有zookeeper服务下载统一时间配置hosts防火墙配置免密登录安装hadoop273hadoop配置hadoop-envsh配置yarn-envsh配置slaves配置core-sitexml配置hdfs-sitexml配置mapred-sitexml配置yarn-sitexml配置分发到配置到slave启动dfsdfs启动前的进程

2017-03-20 11:32:45 1377

原创 kafka本地测试环境搭建

Kafka(二)：环境搭建&测试需求软件步骤本地zk启动启动broker节点创建topic如果已经存在就无需创建查看当前topic列表启动生产者启动消费者演示模拟kafka发送日志信息序列化的格式代码演示发送需求由于共有云的kafka集群只对测试机(阡陌机器等)开放，本地是无法访问的，所以为了开发方便搭建一套kafka的测试环境是有必要的软件kafka_2.11-0.

2017-03-20 11:29:03 4870

原创 Hbase伪分布式

参考文章 Hadoop2.7.2之集群搭建（单机） Hbae安装 Hbase伪分布版本hadoop配置hadoop 启动hbase 配置hbase启动版本hadoop 2.7.3hbase 1.2.3下载完解压缩hadoop配置 core-site.xml<configuration> <property> <name>fs.defaul

2017-03-20 11:27:28 567