- 博客(7)
- 资源 (10)
- 收藏
- 关注
原创 SparkJavaAPI---join的使用
将一组数据转化为RDD后,分别创造出两个PairRDD,然后再对两个PairRDD合并Key相同的Value,过程如下图所示:代码实现如下:public class SparkRDDDemo { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppNam
2017-03-29 16:46:32 3551
原创 《再吃十次蛋糕 就可以找爸爸了》
《再吃十次蛋糕 就可以找爸爸了》 --邱文周/文 给可爱的女儿: 爸爸和妳玩了好多次躲迷藏,每次都一下子就被妳找出来。 不过这一次,爸爸决定要躲好久好久。 妳先不要找,等妳十六岁(还要吃完十次蛋糕)的时候,再问妈咪,爸爸躲在哪里,好不好? 爸爸要躲这么久,妳一定会想念爸爸,对不对? 不过,爸爸不能随便跑出来,不然就输了。 如果还是很想爸爸,爸爸就变魔法出现。 因为是魔法,不是...
2017-03-15 11:00:39 960
原创 《父亲写的散文诗》--李键
《父亲写的散文诗》(音乐链接) —李键一九八四年庄稼还没收割完儿子躺在我怀里睡得那么甜今晚的露天电影没时间去看妻子提醒我修修缝纫机的踏板明天我要去邻居家再借点钱孩子哭了 一整天闹着要吃饼干蓝色的涤卡上衣痛往心里钻蹲在池塘边上狠狠给了自己两拳这是我父亲日记里的文字这是他的青春留下留来的散文诗多年以后我看着泪流不止我的父亲已经老得像一...
2017-03-15 10:51:40 1653
原创 SparkML中三种特征选择算法(VectorSlicer/RFormula/ChiSqSelector)
上一章理解了基于SparkML的文本特征提取(Feature Extractors)算法,这里再针对特征选择(Feature Selectors)的三个算法(VectorSlicer、RFormula以及ChiSqSelector)结合Demo进行一下理解VectorSlicer算法介绍: VectorSlicer是一个转换器输入特征向量,输出原始特征向量子集。Vector
2017-03-07 16:19:40 7978
原创 SparkML中三种文本特征提取算法(TF-IDF/Word2Vec/CountVectorizer)
TF-IDF算法介绍: 词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。 词语由t表示,文档由d表示,语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性,很容易过度强调在文档中经常出现而并没有包含
2017-03-06 21:49:51 11256
转载 RDD、DataFrame和DataSet的区别
在写程序的时候,经常碰到RDD、DataFrame、Dataset这样的集合,然后希望能进一步弄清楚一些,看到网上一篇文章,转过来存档RDD和DataFrame 上图直观体现了RDD与DataFrame的区别:左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,
2017-03-06 15:27:48 1629
原创 java Queue中 add/offer,element/peek,remove/poll区别
java Queue中 add/offer,element/peek,remove/poll中的三个方法均为重复的方法,在选择使用时不免有所疑惑,这里简单区别一下:1、add()和offer()区别:add()和offer()都是向队列中添加一个元素。一些队列有大小限制,因此如果想在一个满的队列中加入一个新项,调用 add() 方法就会抛出一个 unchecked 异常,而调用 offer
2017-03-06 11:13:44 80140 13
中国计算机学会推荐国际刊物会议列表(数据库数据挖掘与内容检索)
2016-06-20
GroupLens_MovieLens数据集
2016-01-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人