![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
吴楠京
这个作者很懒,什么都没留下…
展开
-
利用python及jieba分词和gensim模块计算文本相似度
由于工作需要,接触自然语言处理,写一些笔记,请大家指教。功能:实现把文本库中和输入文本相似的文本输出。工具:Spyder,python3.6,codecs,jieba,gensim等模块。(需要自己安装相关模块,我使用的是pip安装)程序:# -*- coding: utf-8 -*-"""Spyder EditorThis is a temporary script file."""import...原创 2018-04-12 17:41:21 · 7178 阅读 · 1 评论 -
利用java实现对文本的去除停用词以及分词处理
功能:对txt文档进行分词处理,并去除停用词。工具:IDEA,java,hankcs.hanlp.seg.common.Term等库。程序:import java.util.*; import java.io.*; import java.lang.String; import java.lang.StringBuilder; import com.hankcs.hanlp.seg.commo...原创 2018-04-12 18:07:32 · 8394 阅读 · 6 评论 -
NLP 分词相关知识
1.2 中文分词方法介绍 现有的分词方法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 1.2.1 基于字符串匹配的分词方法 基于字符串匹配的分词方法又称机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。 按照扫描方向的不同,字符串匹配分词...原创 2018-09-25 17:09:47 · 361 阅读 · 0 评论