2017年03月_行者小朱

12月 11月 10月 09月 08月 07月 03月 02月 01月

原创 SparkJavaAPI---join的使用

将一组数据转化为RDD后，分别创造出两个PairRDD，然后再对两个PairRDD合并Key相同的Value，过程如下图所示：代码实现如下：public class SparkRDDDemo { public static void main(String[] args){ SparkConf conf = new SparkConf().setAppNam

2017-03-29 16:46:32 3551

原创《再吃十次蛋糕就可以找爸爸了》

《再吃十次蛋糕就可以找爸爸了》 --邱文周/文给可爱的女儿：爸爸和妳玩了好多次躲迷藏，每次都一下子就被妳找出来。不过这一次，爸爸决定要躲好久好久。妳先不要找，等妳十六岁（还要吃完十次蛋糕）的时候，再问妈咪，爸爸躲在哪里，好不好？爸爸要躲这么久，妳一定会想念爸爸，对不对？不过，爸爸不能随便跑出来，不然就输了。如果还是很想爸爸，爸爸就变魔法出现。因为是魔法，不是...

2017-03-15 11:00:39 960

原创《父亲写的散文诗》--李键

《父亲写的散文诗》(音乐链接) —李键一九八四年庄稼还没收割完儿子躺在我怀里睡得那么甜今晚的露天电影没时间去看妻子提醒我修修缝纫机的踏板明天我要去邻居家再借点钱孩子哭了一整天闹着要吃饼干蓝色的涤卡上衣痛往心里钻蹲在池塘边上狠狠给了自己两拳这是我父亲日记里的文字这是他的青春留下留来的散文诗多年以后我看着泪流不止我的父亲已经老得像一...

2017-03-15 10:51:40 1653

原创 SparkML中三种特征选择算法（VectorSlicer/RFormula/ChiSqSelector）

上一章理解了基于SparkML的文本特征提取（Feature Extractors）算法，这里再针对特征选择（Feature Selectors）的三个算法（VectorSlicer、RFormula以及ChiSqSelector）结合Demo进行一下理解VectorSlicer算法介绍： VectorSlicer是一个转换器输入特征向量，输出原始特征向量子集。Vector

2017-03-07 16:19:40 7978

原创 SparkML中三种文本特征提取算法（TF-IDF/Word2Vec/CountVectorizer）

TF-IDF算法介绍：词频－逆向文件频率（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。词语由t表示，文档由d表示，语料库由D表示。词频TF(t,,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。如果我们只使用词频来衡量重要性，很容易过度强调在文档中经常出现而并没有包含

2017-03-06 21:49:51 11256

转载 RDD、DataFrame和DataSet的区别

在写程序的时候，经常碰到RDD、DataFrame、Dataset这样的集合，然后希望能进一步弄清楚一些，看到网上一篇文章，转过来存档RDD和DataFrame 上图直观体现了RDD与DataFrame的区别：左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息，

2017-03-06 15:27:48 1629

原创 java Queue中 add/offer，element/peek，remove/poll区别

java Queue中 add/offer，element/peek，remove/poll中的三个方法均为重复的方法，在选择使用时不免有所疑惑，这里简单区别一下：1、add()和offer()区别:add()和offer()都是向队列中添加一个元素。一些队列有大小限制，因此如果想在一个满的队列中加入一个新项，调用 add() 方法就会抛出一个 unchecked 异常，而调用 offer

2017-03-06 11:13:44 80140 13

中国计算机学会推荐国际刊物会议列表(数据库数据挖掘与内容检索)

2016-06-20

数据集简介如下：（上传空间有限，这里我只传了一个最新的2016/1的数据集，如果有需要的话到官网下载吧http://grouplens.org/datasets/movielens/） MovieLens 100K Dataset Stable benchmark dataset. 100,000 ratings from 1000 users on 1700 movies. Released 4/1998. MovieLens 1M Dataset Stable benchmark dataset. 1 million ratings from 6000 users on 4000 movies. Released 2/2003. MovieLens 10M Dataset Stable benchmark dataset. 10 million ratings and 100,000 tag applications applied to 10,000 movies by 72,000 users. Released 1/2009. MovieLens 20M Dataset Stable benchmark dataset. 20 million ratings and 465,000 tag applications applied to 27,000 movies by 138,000 users. Released 4/2015. MovieLens Latest Datasets Small: 100,000 ratings and 6,100 tag applications applied to 10,000 movies by 700 users. Last updated 1/2016. Full: 22,000,000 ratings and 580,000 tag applications applied to 33,000 movies by 240,000 users. Last updated 1/2016. MovieLens Tag Genome Dataset 11 million computed tag-movie relevance scores from a pool of 1,100 tags applied to 10,000 movies.

2016-01-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

行者小朱的博客

原创 SparkJavaAPI---join的使用

原创《再吃十次蛋糕就可以找爸爸了》

原创《父亲写的散文诗》--李键

原创 SparkML中三种特征选择算法（VectorSlicer/RFormula/ChiSqSelector）

原创 SparkML中三种文本特征提取算法（TF-IDF/Word2Vec/CountVectorizer）

转载 RDD、DataFrame和DataSet的区别

原创 java Queue中 add/offer，element/peek，remove/poll区别

计算机网络第五版

Redis设计与实现

Java_TCPIP_Socket编程

中国计算机学会推荐国际刊物会议列表(数据库数据挖掘与内容检索)

GroupLens_MovieLens数据集

Spark学习资料

Hadoop平台搭建步骤

spring in action 中文版后五章

Visual C++

MyEclipse+Tomcat+MySQL的环境搭建

空空如也

计算机网络第五版

Redis设计与实现

Java_TCPIP_Socket编程

中国计算机学会推荐国际刊物会议列表(数据库数据挖掘与内容检索)

GroupLens_MovieLens数据集

Spark学习资料

Hadoop平台搭建步骤

spring in action 中文版 后五章

Visual C++

MyEclipse+Tomcat+MySQL的环境搭建

空空如也

spring in action 中文版后五章