大数据技术
文章平均质量分 80
JDJRdata
这个作者很懒,什么都没留下…
展开
-
【Spark的那些事儿】DAG让计算更简单
看过了Spark的核心RDD和RDD算子,竟然可以减少计算次数。对于窄依赖是这样的,宽依赖还是要等待宽依赖的结果才能继续计算。Spark引入了DAG来记录宽依赖的计算过程,我们就可以一边记录当前的计算过程一边计算Stage中的窄依赖了。原创 2017-06-09 11:30:58 · 5431 阅读 · 0 评论 -
【Spark的那些事儿】论RDD算子的重要性
虽然RDD结构是spark设计思想最重要的组成,但是没有辅助的功能只有结构并不能独立使用。真正使RDD完成计算优化的,就是今天我们要讲到的spark RDD的另一个重要组成部分RDD算子。原创 2017-06-09 11:28:44 · 2274 阅读 · 0 评论 -
【Spark的那些事儿】—你眼中的RDD
Spark作为开源大数据最热的分析引擎已被越多越多的人关注和使用,本文主要讲述了Spark的基础核心RDD。原创 2017-06-09 11:22:39 · 1495 阅读 · 0 评论 -
【HADOOP】“填坑”指南
总有你不知道的大坑等着你............原创 2017-06-09 11:48:12 · 3464 阅读 · 0 评论 -
【Apache Kylin 】大数据下的OLAP解决方案(作业构建)
Apache Kylin™提供Hadoop之上的SQL查询接口及多维分析能力以支持超大规模数据,能在亚秒内查询巨大的Hive表,其核心思想采用了预计算。本文将对Cube预计算构建详细分析,基于Kylin-1.5.4.1版本。原创 2017-06-15 10:01:12 · 2498 阅读 · 0 评论 -
【Apache Kylin 】 大数据下的OLAP解决方案(原理篇)
本文从架构原理篇开始揭开Apache Kylin 分析引擎的神秘面纱,后续将对任务调度、构建引擎、存储引擎、查询引擎、性能调优、运维管理做深入的分析。原创 2017-06-14 10:58:51 · 3055 阅读 · 0 评论 -
【量化投资】基金择时策略浅析(4) ——参数优化和模型稳定性
在股票市场的建模过程中,样本数据相对于要识别的模式来说一般都比较稀缺,因此模型不宜太复杂,而且模型的稳定性比参数最优化更重要。在本文中我们会讨论常见择时方法的参数优化和模型稳定性等问题。原创 2017-08-04 09:51:03 · 6895 阅读 · 1 评论 -
【爬虫】手把手教你写网络爬虫(6)
从零开始写爬虫,初学者的速成指南!原创 2017-08-07 09:16:06 · 1358 阅读 · 0 评论 -
手把手教你写网络爬虫(7)
从零开始写爬虫,初学者的速成指南!原创 2017-09-13 10:23:07 · 1127 阅读 · 0 评论