大数据技术分析
文章平均质量分 61
1218_Andy
这个作者很懒,什么都没留下…
展开
-
hadoop体系当前重要的两个资源管理框架:mesos&yarn
一:背景介绍 在当前hadoop的整个体系架构中,mesos和yarn是两个比较流行的资源管理组件。在MR1之前,hadoop核心代码包里没有资源管理组件,主要是依赖mesos进行资源的管理。等到MR2之后,hadoop自身发布了新一代资源管理组件 yarn。由于先天优势,从目前业界的使用情况来看,yarn越来越被经常使用。然而,mesos就被取代了吗?从目前来看,yarn在资原创 2015-02-06 00:09:09 · 874 阅读 · 0 评论 -
hadoop/spark调优以及遇到的问题
以下是在使用hadoop、spark的过程中,遇到的问题以及解决方法,没有系统的整理,后续会不断刷新。欢迎大家共享运用中的问题。1.Spark应用结束后,资源释放慢现象:在yarn-client模式下跑spark应用,当driver异常退出时,executor launcher进程没有退出,所占用资源没有释放,过10分钟后,由resource manager将其杀掉原因:spark.a原创 2015-02-16 21:46:25 · 973 阅读 · 0 评论 -
kafka性能i以及与sparkstreaming对接性能优化
验证环境:2台master,8台Slave,24coreCPU,单核2G,128G内存,网络10GE1.在kafka配置文件Server.properties中将log.dir设置为分布在不同磁盘上的多个目录,将不同topic和分区在不同的磁盘上2.将Kafka启动脚本中的KAFKA_HEAP_OPTS选项中的-Xmx512M修改为-Xmx4G3.kafka的生产者与broker,消费原创 2015-03-02 19:30:52 · 438 阅读 · 0 评论 -
流挖掘技术
一,数据流特点1. 海量的,不可能在内存以及硬盘存储2. 传统的多遍扫描挖掘方式不切实际3. 快速变化的,不可能看到流中每一个元素,只能分析部分获取决策4. 时序的,只能是单次线性,按其流入顺序依次读取5. 很快的响应时间6. 高维的二,数据模型1. 时序模型(time sevies):A[i]原创 2015-03-05 21:22:58 · 416 阅读 · 0 评论