数据挖掘
文章平均质量分 83
HarryLi
这个作者很懒,什么都没留下…
展开
-
使用TextRank算法为文本生成关键字和摘要
TextRank算法基于PageRank,用于为文本生成关键字和摘要。转载 2017-06-29 15:20:42 · 865 阅读 · 0 评论 -
TextGrocery,更好用的文本分类Python库
古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM – 支持向量机。但是纵然知道了天机,新手做文本分类仍然需要学习不少东西,例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物,更有种高射炮打蚊子的异样感。有没有可能把最好的文本分类算法,包装成一个超级简单的工具提供给大家?这是我开发TextGrocer转载 2017-06-29 19:49:30 · 1821 阅读 · 2 评论 -
jieba “结巴”中文分词:做最好的 Python 中文分词组件
jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.转载 2017-06-29 20:10:05 · 781 阅读 · 0 评论