- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 流挖掘技术
一,数据流特点 1. 海量的,不可能在内存以及硬盘存储 2. 传统的多遍扫描挖掘方式不切实际 3. 快速变化的,不可能看到流中每一个元素,只能分析部分获取决策 4. 时序的,只能是单次线性,按其流入顺序依次读取 5. 很快的响应时间 6. 高维的 二,数据模型 1. 时序模型(time sevies):A[i]
2015-03-05 21:22:58 432
原创 kafka性能i以及与sparkstreaming对接性能优化
验证环境:2台master,8台Slave,24coreCPU,单核2G,128G内存,网络10GE 1.在kafka配置文件Server.properties中将log.dir设置为分布在不同磁盘上的多个目录,将不同topic和分区在不同的磁盘上 2.将Kafka启动脚本中的KAFKA_HEAP_OPTS选项中的-Xmx512M修改为-Xmx4G 3.kafka的生产者与broker,消费
2015-03-02 19:30:52 453
原创 hadoop/spark调优以及遇到的问题
以下是在使用hadoop、spark的过程中,遇到的问题以及解决方法,没有系统的整理,后续会不断刷新。欢迎大家共享运用中的问题。 1.Spark应用结束后,资源释放慢 现象:在yarn-client模式下跑spark应用,当driver异常退出时,executor launcher进程没有退出,所占用资源没有释放,过10分钟后,由resource manager将其杀掉 原因:spark.a
2015-02-16 21:46:25 997
转载 Kafka在LinkedIn公司的应用场景、现状与未来
Apache Kafka是分布式发布-订阅消息系统,它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式,分区化,可复制的提交日志服务。LinkedIn使用Kafka实现了公司不同应用程序之间的松耦和,那么作为一个可扩展、高可靠的消息系统,它在LinkedIn公司内部都有哪些应用场景、其生态系统是什么样的、未来又会向哪些方面发展呢?最近,LinkedIn的工程
2015-02-15 22:14:14 720
原创 Spark未来要做的事情
Spark目前正处理火热的发展中,过去的一年社区活跃度一直不减,那么进入2015年之后,Spark有了很明显的变化,从最新架构图就可以一展端倪 Spark未来的工作: 如上图所示,Spark的技术栈比之前有了很大的变化,未来Spark将在以下几个方面有重大突破: 一:Spark Core: 1. 扩展以及plugable APIs Data Source API
2015-02-12 21:52:46 600
原创 hadoop体系当前重要的两个资源管理框架:mesos&yarn
一:背景介绍 在当前hadoop的整个体系架构中,mesos和yarn是两个比较流行的资源管理组件。在MR1之前,hadoop核心代码包里没有资源管理组件,主要是依赖mesos进行资源的管理。等到MR2之后,hadoop自身发布了新一代资源管理组件 yarn。由于先天优势,从目前业界的使用情况来看,yarn越来越被经常使用。然而,mesos就被取代了吗?从目前来看,yarn在资
2015-02-06 00:09:09 895
原创 嵌入式系统的核心:RTOS
大概在2000年左右,嵌入式行业迎来了黄金发展期,盖因为电子行业的兴起。电子嵌入式设备与我们的生活紧密的联系在一起。小到我们日常用品 ,比如:手机,冰箱,洗衣机,导航。大到国家层面:火箭,飞船,卫星等。诚然,任何一个行业都有成熟期,到衰落期。嵌入式行业不能说是衰落,只是没有之前那么火热。但是依然和我们的生活息息相关。在这里和大家一起探讨下嵌入式的核心:操作系统,结合原创代码,以便对其有深入的理解。
2015-01-26 20:35:10 626
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人