一、大纲总览
1、tough资料:各类文本等的输入。
2、分词。好的分词算法很重要。
3、文本预处理。
4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。
5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。
6、模型:向量有了,然后就是根据算法去匹配。
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020021919280027.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4ODg4MjA5,size_16,color_FFFFFF,t_70)
二、分词
可以直接用的分词工具。
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200219193609766.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4ODg4MjA5,size_16,color_FFFFFF,t_70)
1、分词算法之最大匹配
向前最大匹配、向后最大匹配、双向最大匹配(不讲)
- 向前最大匹配
1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5)
2、窗口从第一个汉字开始向后滑动以此减少
3、在词典库中匹配到的话,就直接切分句子,然后窗口