Word2vec与LDA的聚类区别

1、首先,Word2vec是词聚类,LDA是主题词聚类

2、也许在方法模型上,他们两者是不同的,但是产生的结果从语义上来说,都是相当于近义词的聚类,只不过LDA是基于隐含主题的,WORD2VEC是基于词的上下文的,或者说LDA关注doc和word的共现,而word2vec真正关注的是word和context的共现

3、更严谨的说,词向量所体现的是语义(semantic)和语法(syntactic)这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题(topic)这一层的信息。比如:
1)计算词的相似度。同样在电子产品这个主题下,“苹果”是更接近于“三星”还是“小米”?
2)词的类比关系:vector(小米)- vector(苹果)+ vector(乔布斯)近似于 vector(雷军)。
3)计算文章的相似度。这个LDA也能做但是效果不好。而用词向量,即使在文章topic接近的情况下,计算出的相似度也能体现相同、相似、相关的区别。

反过来说,想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能,“苹果”和“小米”被聚到了一类,而“乔布斯”和“雷军”则聚到另一类。
这种差别,本质上说是因为Word2vec利用的是词与上下文的共现,而LDA利用的是词与文章之间的共现。
PS. 说起来,拿LDA和doc2vec比较才比较合理啊~~
4、word2vec+kmeans 和lda

word2vec+kmeans是先用word2vec把词表示为向量,然后用kmeans聚类,聚类的结果 应该是挺好的,但是和lda比,多了一些无用词的聚类,比如,我拿技术博客做预料,用lda聚类,聚出来的  都是技术相关的,因为lda是有个主题提取的过程;

而word2vec除了聚出一些技术的类,比如

结点
根节点
此树
结点数目
空树
子树中
子树结
叶子结点
子树
历根结
叶子
前趋
树上
第一棵
历树
二叉树
左子结
这棵
子树根
一棵
子树递
前驱
任一结
孩子
节点均
父节点
rightchild
后继结
树种
子结点
叶结点
右子树
三叉
左子树
这颗
整棵
兄弟结点
叶结
leftchild
满二叉
满二叉树
后继
整棵树
左子
叶子节点
rchild
孩子结点
树节点


fileinputstream
newfileinputstream
newfileoutputstream
fileoutputstream
向文件写入
输入流
readchar
inputstream
fos
outputstream
printstream
readbyte
readstring
filereader
printwriter
writeto
bufferreader
writer
reader
readlong
bufferedoutputstream
bufferedinputstream
bufferwriter
stringbufferinputstream
outstream
pushbackinputstream
instream
filewriter
raf
readline
datastream
stringreader
bytearrayinputstream
writelines
getchannel
dataoutputstream
filterreader
stringwriter
从文件
readbytes
datainputstream
bufferedreader
bytearrayoutputstream
streamwriter
writebytes
randomaccessfile

还聚出非技术类的

算出
加起来
求出
之和
算出来
就求
所求
求得
易得
减去
易知
无解
可得
题中
上数
则有
记为
数了
本题
数里
可求
找出
18次
种数
乘起来
连加
数算
求异
规律
乘积
算下
算过
凑出
二倍
理得
是多少
推求
数对
数模
0数
乘了
数遍
奇偶
累加
多解
数出
多1个推求 



年度
五天
月初
上个月
7月
12月
09月
月底
月末
一个月
这一天
05月
31日
几月
一年
4月
10年
5日
11日
6日
当天
15日
那天
27日
第一年
14日
国庆节
上月
每年
13日
2013年
28日
7日
25号
5月
日子
今天是
4年
8日


开始我是不太理解,看了上面的原理解释,瞬间释怀,不得不说 word2vec聚相关的词还是很牛的

  • 6
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值