大数据
文章平均质量分 78
chenbinkria
这个作者很懒,什么都没留下…
展开
-
【备忘】关于大数据计算平台的一些思考
一个完整的大数据平台应该提供离线计算、即时查询、实时计算、实时查询这几个方面的功能.hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能。hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案,解决存储问题;hadoop mapreduce、hive、spark application、sparkSQL解决的是离...原创 2018-05-24 23:36:30 · 845 阅读 · 0 评论 -
理解Storm并行度
一个Topology可以运行多个Worker上,这样可以提高数据处理能力,因为一个worker就是一个进程,更确切的说是一个JVM,很自然的,我们可以想到如果一个worker中可以再起多个线程的话效率就会很高。事实上storm就是这么干的,worker并不是storm集群中最小运行单位。Executer才是storm集群中最小的运行单位。Executer其实是一个线程,你可以这样理解,worker...原创 2018-07-06 12:10:31 · 377 阅读 · 0 评论 -
为何Spark选择了Scala
初学Scala,给我的感觉就是一堆语法糖以及最近名声大噪的函数式编程。 可是λ表达式Java也有,map / reduce java也有,速度上java也会比scala快,心想一定是自己见识不够,无法领悟。今看一文章,有所感悟:《为什么选择Scala,他在大数据处理方面有何优势》 在这篇文章中有几个核心观点用于支持spark选择scala的原因: 观点1:应用开发的效率很大程度上依靠类库。框...原创 2018-08-05 18:28:09 · 7458 阅读 · 3 评论 -
大数据与数据科学理论学习计划
教材:《大数据导论》《云计算》《大数据》《大数据库》《数据挖掘》《深度学习》《大数据可视化》《虚拟化与容器》《大数据实验手册》https://www.jianshu.com/p/296bacba3510 Nosql原理Hadoop生态圈https://www.cnblogs.com/hanzhi/articles/8969109.html...原创 2019-03-29 23:50:56 · 1126 阅读 · 0 评论