2016年02月_OnlyQi

05月 04月 03月 02月 01月

原创 Spark学习笔记四(RDD Persistency)

为什么要Persistency 当使用transformations和actions定义好数据操作并执行后，Spark会开始执行数据处理。这期间产生的一些中间RDD全部由Spark自动产生并消除，不需要用户关心。但有时我们希望能够重用一些RDD来提高效率。例如新建了一个RDD1，之后调用map()生成了RDD2，最后又分别对RDD2调用了count()和reduce()。Spark会从RDD1

2016-02-18 17:38:06 1051

原创 Spark学习笔记五(Spark SQL，DataFrame和Dataset)

一些操作对所有类型的RDD都可以使用，而另一些操作只能在特殊的RDD类型使用。例如只有对于元素都是数字的RDD才能计算平均值。在下面的操作都是在RDD上通用的操作。Transformations map() Map函数和MapReduce中的map意义相同，即返回一个新RDD，其元素是输入RDD中元素，按照某个规则得到的新元素。输入输出的RDD中包含的元素是一一对应的。例如下例中，

2016-02-18 16:28:35 2494

原创 Spark学习笔记三(RDD)

An RDD in Spark is simply a distributed collection of objects. Each RDD is split into multiple partitions, which may be computed on different nodes of the cluster.RDD的特点是在内存中运行，因此速度很快。且RDD数据由Spark自动分散到

2016-02-17 16:47:02 716

原创 Spark学习笔记一(简介)

安装并使用pyspark进入python shell后，就可以开始使用spark 了。 lines = sc.textFile(“README.md”) # Create an RDD called lines pythonLines = lines.filter(lambda line: “Python” in line) “README.md”是安装spark后，在安装目录中的一个文件

2016-02-17 16:28:19 1227

原创关系型数据库中的高级索引功能

索引是重要的提升磁盘数据检索速度的方式,其中B-tree结构的索引对磁盘数据的检索有极大的效率提高,因此所有的数据库管理系统，包括所有的关系型数据库，NoSQL数据库等等，只要数据是存储在磁盘上，默认都使用B-tree索引来提高效率。一些在内存中的数据可能会使用其它类型的索引，例如MySQL中使用memory引擎时(即表数据存在于内存中)时，默认索引的类型是hash索引。关于B-tree结构的索引如

2016-02-03 16:59:56 2006

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Spark学习笔记四(RDD Persistency)

原创 Spark学习笔记五(Spark SQL，DataFrame和Dataset)

原创 Spark学习笔记三(RDD)

原创 Spark学习笔记一(简介)

原创 关系型数据库中的高级索引功能

空空如也

空空如也

原创关系型数据库中的高级索引功能