文章说明:本文是在学习一个网络爬虫课程时所做笔记,文章如有不对的地方,欢迎指出,积极讨论。
一、分词
计算机是无法直接处理、读懂文本的语义的,因此要对文本进行处理,必须把一篇非结构化的连续的文本,转换为一个数学问题。目前最常用的转换,就是找出文本的关键词,把关键词用一个数学特征来代替,进而利用Logistci Regression、SVM(Support Vector Machine)、Naive Bayes等办法来处理。
(一)中文分词
分词最主要是针对中文的,因为以英文为代表的拉丁语系,文本的单词之间是有天然分割的,而中文则没有。
中文分词的手段主要是依靠字典和统计学结合。分词是基于文本的应用的基础。
得有一个词库。高质量的数据远远超过算法。
(二)分词首先是基于词典的,也就是对于一句话,依次对字的组合与词典做比较,来发现一个词。
(三)分词的歧义
交集型歧义;组合型歧义;混合型歧义。
对于歧义,需要依赖上下文来处理,有时候可以用正向最大匹配与逆向最大匹配来同时提取。
(四)结巴分词
结巴分词是一个python的中文分词库。
安装:pip install jieba
代码: