自然语言处理
搬用工tyler
这个作者很懒,什么都没留下…
展开
-
语义处理之主题模型
背景:词集模型词袋模型tfidf主题模型LSA/LSI(主题模型):特征选择,一般不抽象为主题,但是可以联想到主题。原理:奇异值分解+降维处理,参考:https://www.jianshu.com/p/9fe0a7004560LDA:文档-主题-词模型,提炼出主题概念。原理:隐含狄利克雷分布,参考:https://blog.csdn.net/pipisorry/article/d...原创 2020-03-27 12:05:42 · 230 阅读 · 0 评论 -
语义处理之意图识别与槽位
意图的识别实际上是一个分类问题,如基于规则,传统机器学习算法 (SVM),基于深度学习算法(CNN, LSTM, RCNN, C-LSTM, FastText)等Slot识别实际上是一种序列标记的任务,如基于规则 (Phoenix Parser),基于传统机器学习算法 (DBN; SVM),基于深度学习算法(LSTM, Bi-RNN, Bi-LSTM-CRF)。参考:https://blog....原创 2020-03-27 11:05:29 · 2057 阅读 · 0 评论 -
语义处理
自然语言处理领域涉及到的语义处理有:中心词提取意图识别主题分析语义分析其中结构层面有:句法分析原创 2020-03-27 10:37:06 · 512 阅读 · 0 评论 -
词处理之关系抽取
在知识图谱构建中意义重大传统方式依存句法分析参考https://blog.csdn.net/qq_36426650/article/details/84668741神经网络方式基于文本的卷积神经网络(Text-CNN)的关系抽取将关系理解成分类问题...原创 2020-03-27 10:26:09 · 321 阅读 · 0 评论 -
词处理之命名实体识别NER
命名实体识别属于词性标注问题基于规则:如:NTU系统、FACILE系统、OKI系统。缺点:缺乏鲁棒性和可移植性,对于每个新领域的文本都需要更新规则来保持最优性能,而这需要大量的专门知识和人力,代价往往非常大。基于统计:隐马尔科夫模型(HMM)条件随机场(CRF):相当于增加了规则如:n元模型、隐马尔科夫模型(HMM)、最大熵模型(ME)、决策树、基于转换的学习方法、推进方法、表决感知...原创 2020-03-27 10:18:43 · 303 阅读 · 0 评论 -
词处理之词向量
概念把词转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入( word embedding) 的一种。词的表示one-hotword embeddingword2vecword2vec1.跳字模型(skip-gram)将CBOW模型倒过来2.连续词袋模型(continuous bag of...原创 2020-03-27 00:01:28 · 579 阅读 · 1 评论 -
词处理之分词
参考https://cloud.tencent.com/developer/article/1591668分词原理1.基于字典向前最大匹配,向后最大匹配等2.基于统计基于语言模型,N-Gram语言模型基于统计机器学习,中文分词可以建模成序列标注问题,即一个考虑上下文的字分类问题。因此可以先通过带标签的分词语料来训练一个序列标注模型,再用这个模型对无标签的语料进行分词。1.隐马尔可夫...原创 2020-03-26 23:25:39 · 230 阅读 · 0 评论 -
词处理
自然语言处理领域涉及到的词处理有:分词词性标注专名识别新词发现词向量表示原创 2020-03-26 21:21:05 · 133 阅读 · 0 评论 -
NLG之图像生成文本
1.Multi-Modal RNN百度提出模型核心结构:Multimodal层有三个输入:(三个输入进行拼接之后再进行512的全连接层)1.embedding2做全连接的输出2.embedding2做RNN的输出3.图像经过卷积神经网络(alexnet)最后全连接层的输出示意图2.Show and Tell李飞飞团队模型特点:1.使用更强大的cnn:googlenet...原创 2020-03-26 21:04:42 · 688 阅读 · 0 评论 -
NLG之语言模型
语言模型演化1.N-Gram概率语言模型需要做平滑处理,因为语料不能覆盖所有情况,否则概率都为0,无法生成句子(数据稀疏问题)2.基于NN(神经网络)与N-Gram模型很像是矩阵因子分解(Matrix Factorization)的进化相比N-Gram减少了参数量3.基于RNN(循环神经网络)可以依赖更长的信息减少了参数量4.Class-based Languag...原创 2020-03-26 20:29:20 · 664 阅读 · 0 评论 -
NLG之对话系统
1.对话系统按功能分类1.1闲聊型:根据上下文进行意图识别、情感分析等,然后生成开放性回复;1.2任务型:在NLU(领域分类和意图识别、槽填充)、DST、DPL的基础上,根据学习到的策略来生成对话回复,一般回复包括,澄清需求、引导用户、询问、确认、对话结束语等。1.3知识问答型:根据问句类型识别与分类、信息检索或文本匹配生成用户需要的知识(知识、实体、片段等),这类回复相比单纯的...原创 2020-03-26 17:18:53 · 346 阅读 · 0 评论 -
文本生成NLG
参考:https://www.jianshu.com/p/ffbd9abc5fffNLG的常见形式text to text,如对话机器人data to text,如BI报告生成image to text,如图片自动描述NLG的发展过程简单的数据合并模板化的 NLG高级 NLGNLG的6个步骤第一步:内容确定 - Content Determination作为第一步...原创 2020-03-26 16:57:16 · 1283 阅读 · 0 评论 -
文本分类
文本分类发展过程:词匹配法知识工程统计学习(Rocchio算法、朴素贝叶斯)机器学习(KNN SVM)深度学习(CNN LSTM)FastTextTextCNNTextRNNTextRNN+Attention(处理长序列):等同HANTextRCNN:FastText词向量求平均+DNNTextRNN1.普通LSTM使用最后一个状态劣势:最后输出跟最近的输入...原创 2020-03-20 16:05:03 · 402 阅读 · 1 评论