![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 62
Swayzzu
这个作者很懒,什么都没留下…
展开
-
视觉聊天机器人
给出一张图片,一个问题,由模型进行回答。本质是一个多分类任务,将图片和文字特征结合起来。原创 2021-12-22 16:49:40 · 528 阅读 · 0 评论 -
情感分析初级实战
通过PyTorch, LSTM模型,对评论的正负面情感进行分析。原创 2021-12-22 16:08:05 · 602 阅读 · 0 评论 -
KBQA学习记录-属性相似度模型训练
属性分类流程。原创 2021-12-17 17:04:56 · 972 阅读 · 0 评论 -
KBQA学习记录-项目测试
整个项目的测试流程。原创 2021-12-17 16:41:07 · 1259 阅读 · 1 评论 -
KBQA学习记录-NER训练及验证
模型训练流程原创 2021-12-16 15:30:49 · 605 阅读 · 0 评论 -
KBQA学习记录-NER的main函数
main()函数原创 2021-12-16 15:27:45 · 733 阅读 · 0 评论 -
KBQA-Bert学习记录-构建BERT-CRF模型
BERT和CRF结合起来,构建模型。原创 2021-12-15 22:02:21 · 1763 阅读 · 0 评论 -
KBQA-Bert学习记录-数据集构造
KBQA-BERT数据集构造原创 2021-12-15 21:55:23 · 1866 阅读 · 0 评论 -
KBQA-Bert学习记录-CRF模型
CRF模型的实现原创 2021-12-15 21:51:40 · 3383 阅读 · 8 评论 -
NLP-Bert
Bert学习笔记原创 2021-11-30 21:44:01 · 673 阅读 · 0 评论 -
NLP-Transformer + Attention
transformer以及attention简介原创 2021-11-30 13:38:17 · 762 阅读 · 0 评论 -
NLP-Attention for Seq2Seq
目录1.LSTM的问题2.Seq2Seq的Attention1.LSTM的问题①梯度虽然部分解决,但并未100%解决,序列过长的话,还是会有梯度消失/梯度爆炸的可能。②从应用的角度,一句话通常会有重点,因此我们需要考虑重点,而不是全都看。2.Seq2Seq的Attention核心是计算出每个隐藏层的权重。Encoder部分不变,主要变化在decoder部分。具体流程如下:通过encoder部分,计算出最终的输出向量C,这个C是包含了一整句话全部的信息的。接..原创 2021-11-29 17:27:06 · 439 阅读 · 0 评论 -
NLP-Attention
以看图说话中的注意力机制为例,简单介绍注意力机制。原创 2021-11-29 09:01:03 · 287 阅读 · 0 评论 -
NLP-Seq2Seq
端到端的模型简介原创 2021-11-29 08:51:01 · 1613 阅读 · 0 评论 -
NLP-条件随机场
指路这一篇知乎文章。在了解HMM的前提下,看这个文章,非常清晰能看懂CRF是什么。如何轻松愉快地理解条件随机场(CRF)? - 知乎 (zhihu.com)作者:milter原文地址:https://www.jianshu.com/p/55755fc64(已失效,还是看上面的知乎吧)...原创 2021-11-26 22:26:32 · 182 阅读 · 0 评论 -
NLP-word2vector
word2vec简单介绍原创 2021-11-26 20:03:48 · 587 阅读 · 0 评论 -
NLP-实体消歧/实体统一
比如吃的苹果和苹果手机消除歧义;比如百度公司和百度有限公司进行统一。原创 2021-11-24 17:22:59 · 2026 阅读 · 0 评论 -
NLP-语法树
语法书对句子的句法进行分析。原创 2021-11-24 17:10:06 · 5072 阅读 · 0 评论 -
NLP-bootstrap snowball
bootstrap的改进版本,snowball原创 2021-11-24 09:11:19 · 290 阅读 · 1 评论 -
NLP-关系抽取方法
关系抽取的方法,这里不包含snowball,见另一篇专门写snowball的原创 2021-11-24 09:10:32 · 1827 阅读 · 0 评论 -
NLP-文本特征
文本特征应该从哪些方面下手构建?原创 2021-11-23 15:26:32 · 929 阅读 · 0 评论 -
NLP-简单问答系统实现及优化
问答系统简单实现,用倒排表及词向量优化。原创 2021-11-18 20:01:46 · 1263 阅读 · 0 评论 -
NLP-词性标注+动态规划实现
目录一、计算1.实现目标2.训练数据3.计算原理二、实现1.训练数据2.构建参数3.统计数据4.维特比算法①定义数组②计算第一列分数③循环计算后面的分数(举例)④找最优解一、计算1.实现目标给出一句话,输出每个词的词性2.训练数据类似于下面的数据,左边是句子中的每个词,右边是对应的词性,其中句号代表一句话结束。3.计算原理要求P(词性|句子),根据贝叶斯定理,求P(句子|词性) * P(词性)即可词性记作..原创 2021-11-18 17:23:06 · 644 阅读 · 0 评论 -
NLP-Good Turning平滑
如何计算没有出现过的词,下一次出现的概率?原创 2021-11-17 22:48:36 · 1690 阅读 · 0 评论 -
NLP-倒排表
问答系统,知识库等,每次匹配时间复杂度都是O(N),如果语料库数据量太大,一个一个匹配时间复杂度太高。于是通过过滤的方式,先过滤掉一大部分不符合的,最后剩余少量的进行余弦相似度计算。原创 2021-11-17 17:58:50 · 244 阅读 · 0 评论 -
NLP-语言模型
根据贝叶斯定理得来的。Noisy Channel Model,用于把信号源转换成文本。可以适用于多个场景:后面的p(text)是一个语言模型。保证输出的像人话,有正确的语法。text:中文、正确的写法、文本、明文source:英文、错误的写法 、语音信号、暗文对应的分别是机器翻译、拼写纠错、语音识别、密码破解NCM前半部分,是用来做翻译、纠错、识别、破解的,但不保证语法正确,因此需要语言模型。语言模型用来判断:是否一句话从语法上通顺。比如:今天是周日VS今天周日是..原创 2021-11-15 21:50:25 · 3756 阅读 · 0 评论 -
NLP-句子相似度
1.欧式距离原创 2021-11-14 18:44:52 · 620 阅读 · 0 评论 -
NLP-文本表示/单词过滤
停用词,以及出现频率特别低的词对于英文:标准化stemming,porter stemmer原创 2021-11-14 18:40:21 · 272 阅读 · 0 评论 -
NLP-Tfidf/词向量
目录一、TF-IDF表示法1.词频表示句子的缺点2.TF-IDF介绍二、词向量1.One-hot表示法的缺点2.分布式表示法3.词向量到句子向量一、TF-IDF表示法1.词频表示句子的缺点TF-IDF表示法可以更好地表示句子之间的相似度。如果仅仅是通过统计词频的方式来表示一个句子的话:可以看出,出现次数多的其实并不是很重要,有些词比如“的”“了”,其实是没有重要含义的,因此词频表示句子,不太好。2.TF-IDF介绍公式如下所示:其中各个符.原创 2021-11-14 18:29:12 · 1601 阅读 · 0 评论 -
NLP-分词
比较常用的是jieba分词直接调用cut方法即可。可以通过add_word添加jieba词库中没有的词。分词工具的底层1.前向最大匹配:是一种贪心算法一个参数需要设置max_len比如设为5,就先看“我们经常有”这五个字,看看有没有在词典中出现,没有就去掉一个字,再匹配,直到能匹配上。匹配到了“我们”接下来继续选择最大长度“经常有意见”,同样的方法匹配,最终匹配到“经常”同样的方法匹配到“有意见”最后两个字直接匹配。缺点:不能考虑语义、匹配的内容...原创 2021-11-14 09:53:32 · 578 阅读 · 0 评论 -
NLP-拼写纠正
计算编辑距离,通过多少个操作才可以把写错的单词,转换成可能正确的单词。可以遍历一遍词典库里面的词去对比,但词典库内容可能很多,会增大时间复杂度DP算法核心:把大问题,拆分成小问题DP练习题看一下https://people.cs.clemson.edu/~bcdean/dp_practice/...原创 2021-11-14 09:53:45 · 265 阅读 · 0 评论 -
NLP-问答系统流程
问答系统的流程如下:①获取原始文本②分词③文本清洗,包含:html标签、stop words(a,an,the等)、纠错、大小写转换等③文本标准化,比如:go, went, going, gone这一类词全部映射为go④转为向量,方法:boolean vector / count vector / tfidf / word2vec / seq2seq等⑤建模,比如把库中的内容根据相似度排序然后返回结果后面的学习笔记会对以上内容逐一探索。...原创 2021-11-13 15:42:13 · 1032 阅读 · 0 评论