自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark学习笔记四(RDD Persistency)

为什么要Persistency 当使用transformations和actions定义好数据操作并执行后,Spark会开始执行数据处理。这期间产生的一些中间RDD全部由Spark自动产生并消除,不需要用户关心。 但有时我们希望能够重用一些RDD来提高效率。例如新建了一个RDD1,之后调用map()生成了RDD2,最后又分别对RDD2调用了count()和reduce()。Spark会从RDD1

2016-02-18 17:38:06 1050

原创 Spark学习笔记五(Spark SQL,DataFrame和Dataset)

一些操作对所有类型的RDD都可以使用,而另一些操作只能在特殊的RDD类型使用。例如只有对于元素都是数字的RDD才能计算平均值。在下面的操作都是在RDD上通用的操作。Transformations map() Map函数和MapReduce中的map意义相同,即返回一个新RDD,其元素是输入RDD中元素,按照某个规则得到的新元素。输入输出的RDD中包含的元素是一一对应的。 例如下例中,

2016-02-18 16:28:35 2493

原创 Spark学习笔记三(RDD)

An RDD in Spark is simply a distributed collection of objects. Each RDD is split into multiple partitions, which may be computed on different nodes of the cluster.RDD的特点是在内存中运行,因此速度很快。且RDD数据由Spark自动分散到

2016-02-17 16:47:02 716

原创 Spark学习笔记一(简介)

安装并使用pyspark进入python shell后,就可以开始使用spark 了。 lines = sc.textFile(“README.md”) # Create an RDD called lines pythonLines = lines.filter(lambda line: “Python” in line) “README.md”是安装spark后,在安装目录中的一个文件

2016-02-17 16:28:19 1227

原创 关系型数据库中的高级索引功能

索引是重要的提升磁盘数据检索速度的方式,其中B-tree结构的索引对磁盘数据的检索有极大的效率提高,因此所有的数据库管理系统,包括所有的关系型数据库,NoSQL数据库等等,只要数据是存储在磁盘上,默认都使用B-tree索引来提高效率。一些在内存中的数据可能会使用其它类型的索引,例如MySQL中使用memory引擎时(即表数据存在于内存中)时,默认索引的类型是hash索引。关于B-tree结构的索引如

2016-02-03 16:59:56 2006

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除