python
无敌最最俊朗
这个作者很懒,什么都没留下…
展开
-
利用jieba对多个中文txt文本进行分词
利用jieba对多个中文txt文本进行分词最近研究需要,所以获取了“豆瓣读书”135本书的简介,分成了135个txt文本文件,利用jieba对其进行中文分词、去除停用词工作,并仍旧保存为135个。转载 2017-07-17 16:04:12 · 27717 阅读 · 29 评论 -
利用python对中文文本数据进行LDA训练、计算概率距离
数据来自于“豆瓣读书”25名用户标注图书的一些标签(已经过分词、去停用词、去除不规范的标签),目的主要是通过对标签利用LDA得出25名用户在各主题上的概率分布,然后利用JS散度计算概率距离,从而计算25名用户的相似度,找出某个用户的近邻用户集。转载 2017-07-17 17:19:09 · 14639 阅读 · 9 评论