一、中文分词方法
- 基于字典的分词方法
- 基础规则的分词方法
- 基于统计的分词方法(统计在一段话中出现频率最的那个分词字段)
- 基于深度学的的方法(通过大量的数据的学习)
二、词向量化
- one-hot
- word2vec 将词映射到多维空间里
三、神经网络
- RNN(循环神经网络)
特点:记忆是短期,梯度消失以及梯度爆炸‘’ - LSTM(长短期记忆网络) 是 RNN 的进一步优化
特点:克服 RNN 梯度消失的问题,而且能学习到长距离的信息 - BILSTM (双向长短期神经网络)
四、统计模型
CRF:条件随机场是标记、分割结构化数据的统计模型。CRF 优于隐马尔可夫模型在于放松了 HMM 所需的独立性假设。另外避免了标签偏差问题。CRF 训练的损失函数是凸函数,全局收敛,具有非常好的实用性。
特点:隐马尔可夫是有向图,每个状态依赖于上个状态,而线性链条件随机场是无向
图,当前状态依赖于周围结点的状态,可以捕捉全局信息,所以效果更好
五、jieba 分词
jieba 是结合基于规则和基于统计的分词工具。
jieba 有三种分词模式,分别是精确模式,全模式和搜索引擎模式
六、词向量
- 输入层
使用one-hot编码。 - 隐藏层
隐藏层的神经单元数量代表着每一个词用向量表示的维度。 - 输出层
七、分词的评估标准
精确率:正确的分词个数/总分词的个数
召回率:正确的个数/标准分词的个数
F值:正确率召回率2/(正确率+召回率)
错误率:错误分词的个数/标准分词的个数