- 博客(8)
- 资源 (26)
- 收藏
- 关注
原创 spark-streaming数据量从1%提升到全量实战
架构背景spark参数优化提高executor-cores大小调整executor-memorynum-executors设置首次处理减压策略x消息队列bug规避PHP端限制处理Action1的处理速度从1提升到10高峰期非高峰期状况描述从10提升到50高峰非高峰期状况描述采用pipeline提升redis的qps50提升到全量非高峰期下午时段高峰期
2017-03-29 15:11:58 5623
原创 spark-streaming stage夯住原因分析
现象任务执行中偶先stage停止不动但是我们点进去查看任务的时候发现,任务状态是SUCCESSED的查看日志发现有ERROR和WARN报出17/03/28 10:56:19 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one
2017-03-28 11:15:54 5338 5
原创 Spark mlib学习指南
翻译http://spark.apache.org/docs/latest/ml-guide.html机器学习库MLib指南MLib是运行在spark上的机器学习库,目的是为了方便使用scala语言进行机器学习。提供如下功能:ML算法:提供分类、回归、聚类和协作筛选等常用机器学习算子功能:特征提取、转换、降维,和选择管道线:构建、评估和调优工具缓存:保存和加载算子、模型和管道线工具集:线
2017-03-23 16:05:21 3083
原创 流式计算框架调研
参考文章 流式大数据处理的三种框架:Storm,Spark和Samza Storm和Spark Streaming框架对比 基于Apache Samza,揭秘LinkedIn架构背后的技术 分布式追踪系统架构与设计三大主流框架Apache Storm,Twitter公司推出Apache Spark,UC Berkeley推出Apache Samza,Linkedin推
2017-03-20 11:38:55 1324
原创 spark样例测试
spark on yarn计算平台已经搭建完成,下面来利用这个平台运行下官方的样例,样例全部在/home/work/spark目录下执行SparkPi ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master yarn –deploy-mode cluster examples/jars/spark-examples
2017-03-20 11:36:32 4118
原创 spark_on_yarn环境搭建
集群模式机器软件版本公有zookeeper服务下载统一时间配置hosts防火墙配置免密登录安装hadoop273hadoop配置hadoop-envsh配置yarn-envsh配置slaves配置core-sitexml配置hdfs-sitexml配置mapred-sitexml配置yarn-sitexml配置分发到配置到slave启动dfsdfs启动前的进程
2017-03-20 11:32:45 1377
原创 kafka本地测试环境搭建
Kafka(二):环境搭建&测试需求软件步骤本地zk启动启动broker节点创建topic如果已经存在就无需创建查看当前topic列表启动生产者启动消费者演示模拟kafka发送日志信息序列化的格式代码演示发送需求由于共有云的kafka集群只对测试机(阡陌机器等)开放,本地是无法访问的,所以为了开发方便搭建一套kafka的测试环境是有必要的软件kafka_2.11-0.
2017-03-20 11:29:03 4870
原创 Hbase伪分布式
参考文章 Hadoop2.7.2之集群搭建(单机) Hbae安装 Hbase伪分布版本hadoop配置hadoop 启动hbase 配置hbase启动版本hadoop 2.7.3hbase 1.2.3下载完解压缩hadoop配置 core-site.xml<configuration> <property> <name>fs.defaul
2017-03-20 11:27:28 567
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人