NLP自然语言处理-机器学习和自然语言处理介绍（二）

皇儒无上

已于 2022-07-22 17:23:56 修改

阅读量699

点赞数 1

分类专栏： NLP 文章标签：自然语言处理

于 2022-07-22 17:23:42 首次发布

本文链接：https://blog.csdn.net/HUANGRUWUSHANG/article/details/125936506

版权

本文介绍了自然语言处理中的中文分词任务，探讨了其难点，如歧义词和网络用语，并详细阐述了正向、反向及双向最大匹配等分词方法。此外，还提到了jieba分词库的工作原理及其局限性，以及如何通过机器学习解决分词问题。

摘要由CSDN通过智能技术生成

“NLP自然语言处理-机器学习和自然语言处理介绍-NLP的基础-分词”
1. 为什么要做分词
（1）分词是一个被长期研究的任务，通过了解分词算法的发展，可以看到NLP的研究历程；
（2）分词是NLP中一类问题的代表；
（3）分词很常用，很多NLP任务建立在分词之上。
2. 中文分词的难点
中华文化博大精深，同一个词语在不同的场景下都有着不同的含义，例如卧槽在某些场景中是代表惊讶之情，而有些场景中则代表了愤怒之情；另外随着网络的发展，催生出了各式各样的网络语言，例如然并卵、绝绝子等等。这些有歧义的词和新词、改造词等对分词任务来说是个很大的挑战。如：
—“南京市长江大桥”那个句子要怎么做分词？是切割成南京市长+江大桥还是南京市+长江大桥呢？
3. 中文分词的方法
分词步骤：
①　收集一个词表；
②　对于一个待分词的字符串，从前向后寻找最长的，在此表中出现的词，在词边界做切分；
③　从切分处重复步骤2，直到字符串末尾。
如下：
在这里插入图片描述
4. 中文分词实现方式
（1）正向最大匹配
实现方式一：
①　找出词表中最大词长度；
②　从字符串开头开始选取最大词长度