读书笔记
水木-刘
这个作者很懒,什么都没留下…
展开
-
《苏菲的世界》——读书笔记
伊甸园你是谁? 如果换个名字,换个长相还是自己么? 终有一天会死去,届时才会体会到生命是多么可贵。 世界从何而来? 在某一时刻,事物必然曾经从无到有。 席德是谁?魔术师的礼帽有一些东西是人人需要的,那就是:明白我们是谁、为何会在这里。这是最基本的哲学问题。 哲学之所以产生是因为人有好奇心。 成为一个优秀哲学家的唯一条件是有好奇心。不要把原创 2017-07-02 18:03:19 · 7007 阅读 · 1 评论 -
《2015》——王小波
这是王小波的一篇中篇小说,我花了几个小时读完之后,脑子里并没有太大的感触,也不知道作何感想,和往常一样我去找其他人的评论和感触。这些评论主要在叵测,规则和性爱方面进行叙述。小舅因为画叵测被吊销画家执照,因为卖画而多次被拘留、进习艺所、被劳改,同时也吸引了小舅妈等女人。但是当“我”发现了 曼特波罗集之后,“拯救”了小舅,小舅的画不叵测了,却也过气了。小舅妈这里也值得思考——“这似乎是说,假如小舅继续叵原创 2017-07-02 18:31:09 · 9521 阅读 · 0 评论 -
《Spark快速大数据分析》——读书笔记(4)
第4章 键值对操作键值对RDD通常用来进行聚合计算。我们一般要先通过一些初试ETL(抽取、转化、装载)操作来将数据转化为键值对形式。 本章也会讨论用来让用户控制键值对RDD在各节点上分布情况的高级特性:分区。4.1 动机pair RDD(包含键值对类型的RDD)提供了并行操作各个键或跨节点重新进行数据分组的操作接口。4.2 创建Pair RDD当需要把一个普通的RDD转为pair RDD时,可以调原创 2017-07-20 10:39:17 · 2445 阅读 · 0 评论 -
《Spark快速大数据分析》——读书笔记(1,2)
推荐序带来革命性改变的并非海量数据本身,而是我们如何利用这些数据。大数据解决方案的强大在于他们可以快速处理大规模、复杂的数据集,可以比传统方法更快,更好的生成洞见。 大数据解决方案通常包含多个组件,但数据处理引擎之于大数据就像CPU之于计算机。 Spark允许用户程序将数据加载到集群内存中用于反复查询,非常适用于大数据和机器学习。译者序如今,硬件产业的不断发展使得内存计算成为了可能,Spark原创 2017-07-16 22:14:55 · 882 阅读 · 2 评论 -
《Spark快速大数据分析》——读书笔记(5)
第五章 数据读取与保存5.1 动机动机:数据量比较大,单台机器无法完成。 三类常见的数据源:文件格式与文件系统。对于存储在本地文件系统或分布式文件系统(比如NFS、HDFS、Amazon S3等)中的数据,Spark可以访问很多种不同的文件格式,包括文本文件、JSONSequenceFile以及protocal buffer。Spark SQL中的结构化数据源。数据库与键值存储。5.2 文原创 2017-07-20 22:52:19 · 1165 阅读 · 0 评论 -
《Spark快速大数据分析》——读书笔记(3)
只看书是快,但是动手时会遇到种种问题,不可怠慢!第3章 RDD编程弹性分布式数据集(Resilient Distributed Dataset,RDD)其实就是分布式的元素集合。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。3.1 RDD基础Spark中RDD是一个不可变的分布式对象集合。每个RDD都被分为多个分区,分区运行在集群的不同节点上。RDD可以原创 2017-07-17 09:25:05 · 562 阅读 · 0 评论