大数据系统基础
文章平均质量分 74
Cristina__jing
这个作者很懒,什么都没留下…
展开
-
大数据系统基础导论
大数据系统基础导论原创 2017-10-28 23:17:56 · 1195 阅读 · 0 评论 -
数据装载
数据装载原创 2017-10-28 23:31:00 · 950 阅读 · 0 评论 -
链式存储系统原理
Cassandra系统原创 2017-12-07 20:26:55 · 871 阅读 · 0 评论 -
流处理
1、背景流计算希望达到的目标:实时性、扩展性批处理较简单:固定数据规模、对处理时间的容忍度较高流计算难度较大:数据到达的速率不一样(扩展性)容错可以通过清洗先处理一遍(离线的方式)批处理系统里用的都是重新计算的方法、checkpoint保存当前状态难点:还希望满足系统实时性、扩展性的要求编程希望可以自动处理容错和负载平衡的问题2、做一个流计算系统2.1、基础组建:worker(处理)、queue(...原创 2018-03-09 10:16:28 · 256 阅读 · 0 评论 -
数据并行
1、数据并行技术上机器学习 = 统计 + 最优化方法数据科学 = 机器学习 + 计算机系统(map reduce)特征工程(把原始数据变成向量)bag of words,磁带模型GFS几个重要的观点数据存储于成百上千额服务器中大数据块减少元数据的开销使用商用硬件->失败是很正常的 -失败是不可避免的,所以买便宜的硬件没有复杂的一致性模型 -单写者,数据只能添加 -避免互相等...原创 2018-03-09 10:19:48 · 329 阅读 · 0 评论