传统方法解决NER问题
1.基于规则的专家系统:召回低,规则维护复杂,泛化能力差
2.基于特征的监督学习:需要大量特征工程,泛化能力一般
基于DL的NER模型成为主流,并取得了SOTA
深度学习的关键优势在于其强大的表示学习能力,通过向量表示和神经网络学习复杂的组合语义
深度学习可以通过对原始数据进行训练,自动发现分类或检测所需的语义表示
NLP监督任务
基本套路:
文本数据搜集合预处理
将文本进行编码和表征
设计模型解决具体问题
文本表示
文本表示是深度学习进行NLP任务的第一步,将自然语言转化为深度学习能处理的数据
词向量
将自然语言进行数学化
1.one-hot :
维度灾难,不能刻画词与词之间的相似性
2.Distributed:
将词映射成固定长度的短向量,构造词向量空间,通过距离刻画词之间的相似性。
语言模型
语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否是人话的概率
例如:
中国是世界上糖尿病患者最多的国家。
中国是世界上患者最多的国家糖尿病。
中国是师姐上最多的国家糖尿病患者。
给定一个长度为T的词的序列w1,w2,…,wt,语言模型将计算该序列的概率。
假设序列w1,w2,…,wt中的每个词是依次生成的,我们有
P ( w 1 , w 2 , . . . , w T ) = ∏ t = 1 n P ( w t ∣ w 1 , w 2 , . . . , w t − 1 ) P(w_1,w_2,...,w_T) = \prod_{t=1}^n P(w_t|w_1,w_2,...,w_{t-1}) P(w1,w2,...,wT)=t=1∏nP(wt∣w1,w2,...,wt−1)
例如,一段含有四个词的文本序列的概率:
P ( w 1 , w 2 , w 3 , w 4 ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 1 , w 2 ) P ( w 4 ∣ w 1 , w 2 , w 3 ) P(w_1,w_2,w_3,w_4) = P(w_1)P(w_2|w_1)P(w_3|w_1,w_2)P(w_4|w_1,w_2,w_3) P(w1