NLP基础算法总结
NLP(Natural Language Processing) 简称:自然语言处理
以下为自然语言处理用到的基础算法,包括词法分析、句法分析、语义分析、文档分析
一、词法分析
词法分析包括分词、词性标注、实体识别、拼写检查等。
1、分词
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
这里只写中文的分词方法。
jieba分词:常用轻量级的分词方法工具(可以实现分词、词性标注、关键词提取等)
项目地址:github:https://github.com/fxsjy/jieba
简单示例:
import jieba
import jieba.posseg as pseg
import jieba.analyse
str1 = "我来到北