- 博客(3)
- 资源 (5)
- 收藏
- 关注
转载 如何用Python从海量文本抽取主题?【转载:王树义】
你在工作、学习中是否曾因信息过载叫苦不迭?有一种方法能够替你读海量文章,并将不同的主题和对应的关键词抽取出来,让你谈笑间观其大略。本文使用Python对超过1000条文本做主题抽取,一步步带你体会非监督机器学习LDA方法的魅力。想不想试试呢?淹没每个现代人,几乎都体会过信息过载的痛苦。文章读不过来,音乐听不过来,视频看不过来。可是现实的压力,使你又不能轻易放弃掉。假如你是个研究生,...
2019-02-18 14:26:13 1525
原创 词频计算方法(TF/IDF)
文本分类中,如何定义一个词出现的频率呢?如果仅仅用这个词在文章中出现的次数来定义词频,那么某个词在长文件中的词频一般会大于这个词在短文件中的词频。不能说这个词就是长文件一个好的标识词,为了避免这种情况可以使用TF来表示,TF=某词出现次数/总词数。还有像汉语中“的”、“地”、“我们”等这些词,在文章中出现的频率很高,但是对文章分类的作用几乎没有,所以如果只用TF来定义词频,无法避免此类问题,可以再
2018-04-09 20:25:09 13482 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人