- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 mapreduce 二次排序后reduce输出中key的变化
最近用java mr写了个二次排序,但是根据看到的博文写的是迭代器的key使用属于同一个组的所有key的第一个key,写了代码跑出数据后发现并不是,在网上找了半天,看到一篇关于mr values迭代器的源码文章,跟很久之前看到的类似,确认了自己的想法,reduce函数中遍历values迭代器的时候触发了key的重新赋值,根据reduce函数的参数,通常我们容易认为一个reduce的输入是{key,
2017-04-25 18:02:58 689
原创 特征选择和特征抽取
特征选择和特征抽取:首先特征选择和特征抽取没有先后关系,可以两个一起进行,也可以只用一个,都是降维的方法。特征抽取主要两种方法是PCA和LDA,其中LDA-主题生成,这两个使用的场景不一样,LDA可以用来分类,比如文档属于哪种主题,或者用什么关键词来代表。
2017-03-30 19:05:16 523
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人