![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python自然语言处理
文章平均质量分 73
李元静
专注移动开发10年,对Android、鸿蒙、Python以及Flutter均有涉猎。最近更新Python爬虫与鸿蒙专栏,著有《Flutter App开发从入门到实战》一书,感兴趣的读者加微极客学编程,实时掌握博主的更新动态。
展开
-
Python自然语言处理专栏目录
Python自然语言处理专栏目录初体验HanLP—Python自然语言处理(1)切分算法—Python自然语言处理(2)字典树—Python自然语言处理(3)停用词过滤—Python自然语言处理(4)简繁体转换—Python自然语言处理(5)拼音转换—Python自然语言处理(6)语料库标注与训练模型—Python自然语言处理(7)预测分词—Python自然语言处理(8)...原创 2021-05-28 13:15:54 · 1156 阅读 · 2 评论 -
预测分词---Python自然语言处理(8)
目录前言加载模型构建词网前言在机器学习中,我们有了训练集的话,就开始预测。预测是指利用模型对句子进行推断的过程。在中文分词任务中也就是利用模型推断分词序列,同时也叫解码。在HanLP库中,二元语法的解码由ViterbiSegment分词器提供。本篇将详细介绍ViterbiSegment的使用方式加载模型在前篇博文中,我们已经得到了训练的一元,二元语法模型。后续的处理肯定会基于这几个文件来处理。所以,我们首先要做的就是加载这些模型到程序中:if __name__ == "__main__":原创 2021-04-22 19:20:39 · 6867 阅读 · 0 评论 -
语料库标注与训练模型---Python自然语言处理(7)
目录什么是拼音转换什么是拼音转换原创 2021-04-21 18:22:23 · 10652 阅读 · 4 评论 -
拼音转换---Python自然语言处理(6)
目录什么是拼音转换拼音转换输出音调输出声调输出声母输出韵母处理数字拼音什么是拼音转换在我们学习语言之前,我们一般会学习拼音来认识汉字,并学会如何读汉字。所以,拼音在对于我们语言的重要性不言而喻。而拼音转换指的是将汉字转为拼音的过程。但是,我们中文博大精深,一般来说某个字并不仅仅只有一个读音,比如“翟”,它作为姓氏可以读作zhái,作为其他可读作di。这是就需要结合上下文,或者说结合与其组合的词汇进行转换拼音。不仅如此,拼音还有音调,比如一二三四声表示的意义有时候也是不一样的。本篇博文将介绍字符串到拼原创 2021-04-20 18:13:33 · 7698 阅读 · 0 评论 -
简繁体转换---Python自然语言处理(5)
目录简体繁体转换使用CharTable进行简繁体转换多种繁简之间的转换简体繁体转换如今,世界上存在两种中文,一种是中文简体,一种是中文繁体。如果要完全掌握中文语言的自然语言处理,那么简繁都不可避免。所以,掌握了简体与繁体的转换,往往能够事半功倍。而HanLP也提供了简繁转换的类:CharTable,用它来执行字符正规化。比如简体转换繁体,全角转换半角,大写转换小写,都可以使用该类来实现。使用CharTable进行简繁体转换下面,我们来直接使用CharTable进行一段诗词的繁体到简单的转换。具体代原创 2021-04-19 18:05:03 · 7470 阅读 · 0 评论 -
停用词过滤---Python自然语言处理(4)
目录什么是停用词加载停用词字典删除停用词分词以及删除停用词直接删除停用词(不分词)什么是停用词在汉语中,有一类没有多少意义的词语,比如组词“的”,连词“以及”、副词“甚至”,语气词“吧”,被称为停用词。一个句子去掉这些停用词,并不影响理解。所以,进行自然语言处理时,我们一般将停用词过滤掉。而HanLP库提供了一个小巧的停用词字典,它位于Lib\site-packages\pyhanlp\static\data\dictionary目录中,名字为:stopwords.txt。该文本收录了常见的中英文无意原创 2021-04-18 18:15:26 · 16530 阅读 · 1 评论 -
字典树---Python自然语言处理(3)
目录什么是字典树DoubleArrayTrieSegmentAhoCorasickDoubleArrayTrieSegment什么是字典树在自然语言处理中,字符串集合常用字典树存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串,而是将词语视作根节点到某节点之间的一条路径,并在终点节点上做个标记(表明到该节点就结束了)。要查询一个单词,指需要顺着这条路径从根节点往下走。如果能走到标记的节点,则说明该字符串在集合中,否则原创 2021-04-17 18:08:14 · 7424 阅读 · 1 评论 -
切分算法---Python自然语言处理(2)
目录前言完全切分正向最长匹配逆向最长匹配双向最长匹配前言我们需要分析某句话,就必须检测该条语句中的词语。一般来说,一句话肯定包含多个词语,它们互相重叠,具体输出哪一个由自然语言的切分算法决定。常用的切分算法有完全切分、正向最长匹配、逆向最长匹配以及双向最长匹配。本篇博文将一一介绍这些常用的切分算法。完全切分完全切分是指,找出一段文本中的所有单词。不考虑效率的话,完全切分算法其实非常简单。只要遍历文本中的连续序列,查询该序列是否在词典中即可。上一篇我们获取了词典的所有词语dic,这里我们直接用代原创 2021-04-16 18:05:39 · 8163 阅读 · 1 评论 -
初体验HanLP---Python自然语言处理(1)
目录前言安装HanLP库词典的加载前言目前开源的自然语言处理工具有NLTK,CoreNLP,LTP,HanLP。对于我们中国的程序员来说,一般使用哈工大的LTP,或者使用开源的HanLP。我们后续的讲解都是基于HanLP工具,它具有词法分析,句法分析,关键词提取以及文本分析等。优点是运行特别快,省内存,精度准且免费的特性。安装HanLP库既然我们已经了解了HanLP库的优点,下面,我们安装该库用于后续的开发实战:pip install pyhanlp -i https://pypi.tuna.t原创 2021-04-15 18:02:24 · 8710 阅读 · 0 评论