分词
文章平均质量分 62
栗子ma
这个作者很懒,什么都没留下…
展开
-
【NLP】Python英文文本聚类
【原文链接】http://brandonrose.org/clusteringIn this guide, I will explain how to cluster a set of documents using Python. My 目标例子 is to identify the 潜在的 structures within the 摘要 of the top 100 films of a...翻译 2018-07-13 17:08:20 · 14135 阅读 · 4 评论 -
【NLP】Jieba中文分词
【GitHub地址】https://github.com/fxsjy/jieba特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 ...原创 2018-07-16 16:50:05 · 359 阅读 · 0 评论 -
【NLP】Python中文文本聚类
1. 准备需要进行聚类的文本,这里选取了10篇微博。import ospath = 'E:/work/@@@@/开发事宜/大数据平台/5. 标签设计/文本测试数据/微博/'titles = []files = []for filename in os.listdir(path): titles.append(filename) #带BOM的utf-8编码的txt文件时...原创 2018-07-18 10:08:50 · 22074 阅读 · 12 评论