NLP
文章平均质量分 77
栗子ma
这个作者很懒,什么都没留下…
展开
-
【NLP】Python英文文本聚类
【原文链接】http://brandonrose.org/clusteringIn this guide, I will explain how to cluster a set of documents using Python. My 目标例子 is to identify the 潜在的 structures within the 摘要 of the top 100 films of a...翻译 2018-07-13 17:08:20 · 14244 阅读 · 4 评论 -
【Spark】TF-IDF
TF-IDFTerm frequency-inverse document frequency (TF-IDF) is a feature vectorization method widely used in text mining to reflect the importance of a term to a document in the corpus. Denote a term b...翻译 2018-06-06 02:09:58 · 402 阅读 · 0 评论 -
【NLP】Jieba中文分词
【GitHub地址】https://github.com/fxsjy/jieba特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 ...原创 2018-07-16 16:50:05 · 390 阅读 · 0 评论 -
【NLP】Python中文文本聚类
1. 准备需要进行聚类的文本,这里选取了10篇微博。import ospath = 'E:/work/@@@@/开发事宜/大数据平台/5. 标签设计/文本测试数据/微博/'titles = []files = []for filename in os.listdir(path): titles.append(filename) #带BOM的utf-8编码的txt文件时...原创 2018-07-18 10:08:50 · 22195 阅读 · 12 评论 -
【NLP】BosonNLP Python SDK 使用入门
打开Anaconda Navigator,create new environment,选择Python 3.6和R。如果您使用 Python 语言,建议通过 SDK 的方式使用 BosonNLP。BosonNLP Python SDK 是由 BOSON 官方支持的开发者工具包,提供了对 REST 接口的简化封装。最简便的安装方式是通过 pip 。...原创 2018-07-13 13:55:58 · 1362 阅读 · 1 评论