NLP
文本分类、摘要生成、命名实体识别、关系抽取、指代消解、知识图谱
Clairezcy
喜欢用技术手段研究感兴趣的问题,热衷数据分析和自然语言处理,寻找数据和语言文字背后的逻辑和联系,尤其看好知识图谱的发展~~
展开
-
NLPer必会:bert+bilstm+CRF进行中文命名实体识别(NER)
1、命名实体识别由于有标注标签的存在,转化为多分类问题。标注标签本次训练集中为‘BIO’方式标注命名实体标注三种:人物,地点,组织机构标签共7个类别:B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG,O2、对于文本向量表示,如使用预训练模型BERT的向量:安装腾讯肖涵博士开发的Bert Server(bert-serving-server)和Client(bert-...原创 2020-02-27 16:04:52 · 8228 阅读 · 3 评论 -
language mode以及LSTM实现
把手写笔记搬上来,以后就用博客进行学习记录了,加油!n-gram语言模型,在我看来,有点类似于有监督机器学习里面的生成式模型,就是假设样本概率分布与总体概率分布相同,用样本的条件概率去估计总体的条件概率,样本的条件概率就用样本的P(y)/P(x,y)就行了,n-gram语言模型对某个词序列的概率计算方式与之类似,词序列的概率是由序列中每一节点的条件概率相乘得到,那么每一条件概率的计算...原创 2020-01-09 14:13:19 · 457 阅读 · 0 评论 -
NLP项目流程及思考逻辑
把手写笔记搬上来,以后就用博客进行学习记录了,加油!喜欢做NLP的项目,让机器读懂文字的感觉很奇妙。做过文本分类、摘要生成、机器翻译和NER,写代码的过程中细想来其实所谓人工智能,真的就是让计算机模仿人类的思考逻辑来完成运算。我们从小学习语言文字,都是从识字,组词到造句计算机学习文字,也要从字或词开始,到造句一、我们识字,无论中英文,对字义的理解,本质上都是用一些字去解释另...原创 2020-01-09 14:18:03 · 315 阅读 · 0 评论 -
word2vec原理及论文代码复现
把手写笔记搬上来,以后就用博客进行学习记录了,加油!word2vec 总结1、两种方式:CBOW(context(w) --->w), skip-gram(w--->context(w)) 但其实这两个的区别只是CBOW中的center word作为context的mean,梯度下降法更新center word后,再以同尺度、同时更新所有context words;而sk...原创 2020-01-09 14:22:22 · 774 阅读 · 0 评论 -
FastText与Glove原理
把手写笔记搬上来,以后就用博客进行学习记录了,加油!原创 2020-01-09 14:24:40 · 188 阅读 · 0 评论 -
Transformer原理与self-attention过程详解
把手写笔记搬上来,以后就用博客进行学习记录了,加油!原创 2020-01-10 16:32:05 · 257 阅读 · 0 评论 -
Seq2Seq与Attention机制与pytorch实现双向GRU+attention encoder-decoder模型
把手写笔记搬上来,以后就用博客进行学习记录了,加油!所谓Attention机制,如用RNN作为encoder来学习输入序列,那么encoder上所有节点(词)隐藏层输出就相当于输入序列的背景变量(或者叫做query向量),寻找query与输出序列(或者叫做key向量)之间的权重关系,得出encoder上每个节点词与所有输出节点词之间的权重系数,进而计算某个输出节点输出值时就用该输出节点对应...原创 2020-01-10 16:31:54 · 3258 阅读 · 3 评论 -
【爬虫+文本分类】--新浪各类新闻标题,并用各类算法进行文本分类
自己设计的小项目,初始想法很简单,检验自己爬虫和nlp基本技能(分词、词向量(tokenize\onehot\tfidf\word2vec))和各类算法(朴素贝叶斯、svm、CNN、LSTM)掌握情况,进一步查漏补缺,提升工程能力和算法应用能力:)**第一部分:爬虫**分析新浪网各类新闻网页结构,应用requests库,爬取并解析新浪各类新闻,包括汽车、教育、金融、娱乐、体育、科技共六类...原创 2020-02-18 12:37:22 · 4080 阅读 · 9 评论 -
文本摘要生成--用过的方法及原理思考
起初,由于工作需要,需要对大量技术文章进行分类并用一两句话描述关键内容,做成类似简报之类的报告给领导看,但是材料又多又长,不可能一篇篇去读,怎么办呢?最先想到的办法,就是抽取关键词,简单易行,就是后期需要自己梳理成句,当然还是需要浏览一遍文章,不过至少有的放矢了1、第一版:获取TFIDF最高的n个词汇,作为关键词提取;from sklearn.feature_extraction.text ...原创 2020-02-18 17:05:53 · 2008 阅读 · 0 评论