- 博客(4)
- 资源 (6)
- 收藏
- 关注
翻译 Spark Streaming Programming Guide(翻译)
近期做目需要用到Spark的流处理框架,故进行了官方文档的阅读,顺手翻译在此。概要Spark流是对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理。数据可以由多个源取得,例如:Kafka,Flume,Twitter,ZeroMQ,Kinesis或者TCP接口,同时可以使用由如map,reduce,join和window这样的高层接口描述的复杂算法进行处理。最终,处
2016-03-21 16:31:44 1913
原创 详细阅读Spark论文
为了尽可能完整地了解Spark的整个原理,并有一个层次性的认知,找了几篇最初Spark提出的论文来看。 一是希望 借此进一步加深对于Spark的理解进而指导之后的使用。 二是闲的 没事可干 那就看着虐虐自己吧。 首篇论文在这里可下note: 并非完整翻译,这样也没什么意思,而基本流程是阅读内容–>理解内容–>总结内容–>提出想法吧。当然其中会添加进去一些自己理解相关知识点请的”外援“。现在正式
2016-03-12 16:30:54 14010
翻译 Sklearn Reading2
本文针对官方文档第二部分:统计学习在数据处理中的应用机器学习: 随着实验科学所面临数据集的快速增长,ML得到了充分的重视,其应用范围也从联合不同的观测以建立预测函数到为观测分类再到从未标记数据集中学习到一定的结构。 统计推断: 通过分析现有数据得到潜在分布的特征。也就是假设现有数据来自于一个更大数据分布集合,并带有其一系列性质和特性,通过研究现有数据可见微知著,洞察到整个数据的分布以及特征。
2016-03-12 10:25:33 537
翻译 Sklearn Reading1
Introduce此处仅给出ML基本原则 以及 Sklearn的基本流程 学习 实际上考虑的是针对数据,通过对数据已知部分(实际中往往是数据集的采样)的思考从而指导进一步地对数据未知部分的预测和理解。又由于对数据采样的点往往并非单个数值,其往往含有多元条目–> 这采样数据称多元数据,其中含有的条目称为数据的特征。例如:通过在1000个人中拉出来100个人进行分析,针对每个人研究身高 性别 体
2016-03-08 22:57:07 405
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人