- 博客(2)
- 资源 (20)
- 收藏
- 关注
原创 Inverted Index(倒排索引)
传统的正排索引指的是doc->word的映射,然而在实际工作中,仅仅只有正排索引是远远不够的,比如我想知道某个word出现在那些doc当中,就需要遍历所有的doc,这在实时性要求比较严的系统中是不能接受的。因此,就出现了倒排索引(inverted index ),详细内容参见Wikipedia-Inverted index。本文主要讲解的是如何使用Scala编写Spark程序来实现倒排索引。原理目的
2016-07-30 22:03:48 5001
原创 SparkSQL之更改表结构
本文篇幅较短,内容源于自己在使用SparkSQL时碰到的一个小问题,因为在之后的数据处理过程中多次使用,所以为了加深印象,在此单独成文,以便回顾。场景在使用SparkSQL进行数据处理时,碰到这样一种情况:需要更改DataFrame当中某个字段的类型。简而言之,就是需要更改SparkSQL的表结构。出于学习的目的,做了一个简单的Demo。下面来看看这个实例。Example…… ……首先使用spar
2016-07-23 18:04:15 7057
visio_2010_64位.part3.rar
2018-04-29
visio 2010 64 bit-part2
2018-04-29
visio 2010 64 bit-part1
2018-04-29
visio 2010 64 bit-part4
2018-04-29
决策树算法python实现
2015-05-25
python2.7.5安装及其相应的matplotlib的包及依赖
2015-05-25
jQuery+Struts+Ajax无刷新分页
2015-04-13
jasperreports-5.5.1_struts2.3整合用到的jar包
2014-05-28
php-5.3.6-Win32-VC9-x64.zip
2014-03-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人