NLP
qq_43012160
屯屯屯烫烫烫
展开
-
词向量嵌入的深入研究
最近做项目想把bert的词向量提出来用,好好研究了一下词向量的嵌入。传统词向量嵌入主要就是word2vec和keras.layers.Embedding层了,除此之外还打算讲一下bert的词向量应用:词向量嵌入的基本流程不管是用word2vec、embedding层还是bert,每个词都会被先编码为一个数字,你的数据集/batch会先被转化为一个[batch_size,seq_length]的...原创 2019-12-02 20:15:51 · 838 阅读 · 2 评论 -
seq2seq:LSTM+attention的生成式文本概要
seq2seq:LSTM+attention的生成式文本概要最近做的利用seq2seq模型的生成式文本概要,参考了这位大佬的源码:https://spaces.ac.cn/archives/5861/comment-page-1数据集准备及预处理我直接拿的新闻数据集的内容(content)和标题(title),根据内容概括标题。一般想要达到比较能看的结果的话需要10w左右的数据集,跑50...原创 2019-11-23 16:02:10 · 2341 阅读 · 4 评论 -
文本摘要概述
文本概要就是从一大段文字里提取关键信息,做概括。主要分为抽取式和生成式。抽取式extractive抽取式最常用的算法是TextRank,TextRank 算法是一种用于文本的基于图的排序算法,通过把文本分割成若干组成单元(句子),构建节点连接图,用句子之间的相似度作为边的权重,通过循环迭代计算句子的TextRank值,最后抽取排名高的句子组合成文本摘要。抽取式摘要产生的总结的基本单元(句子/短...原创 2019-11-01 15:50:57 · 578 阅读 · 0 评论 -
CCF-BDCI互联网新闻情感分析(bert-base,线上0.79)
今天来讲一讲怎么用bert做文本分类,比赛是今年的CCF-BDCIhttps://www.datafountain.cn/competitions/350第一次接触bert,比较菜,线上macro_f1得分0.79:附上代码和数据集,数据集是tsv格式,我做了一些预处理,保存在data文件夹下面,验证集是从原训练集中按0.1的比例划分出来的。测试集test是没有标签的,想跑线下可以用tra...原创 2019-10-27 16:28:23 · 3176 阅读 · 1 评论 -
学习bert过程中的思考(1)
最近参加了一个nlp的比赛,做文本情感分类的。发现传统神经网络的效果的确赶不上bert。就研究了一下bert。其实真正运行bert的操作非常简单。但因为找不到教程在最初还是走了很多弯路的。但在走弯路的同时我觉得我学到了很多之前不知道的东西,就用这篇博文记录一下。我觉得这些思考和收获让我对模型的理解和使用水平都提高了一个层次。甚至我后面跑起来bert很大程度上也要归功于这期间对模型理解的提升。这...原创 2019-10-25 08:59:59 · 571 阅读 · 0 评论 -
特征选取/停用词筛选的三种指标
特征选取/停用词筛选的三种指标方差/概率方差方差用来检验数据的分散程度,是特征选取的常用指标。但在nlp中,由于不同的词的词频有着非常大的差异,导致直接利用词的出现概率计算方差会由于基数的大小差异导致结果的偏差,比如下面这个例子:在一个二分类问题中,“的”在0(积极)和1(消极)类中的出现概率p0(的)=0.55,p1(的)=0.45,方差为0.0025,而“好极了”在0类和1类中的出现概...原创 2019-10-06 14:31:14 · 1230 阅读 · 0 评论 -
BERT模型
BERT模型上一篇写了一下transformer:https://blog.csdn.net/qq_41664845/article/details/84969266原理简述BERT 的创新点在于它将双向 Transformer 用于语言模型。Transformer的decoder 是从左到右单向的,因而是串行的(也体现在当前时间片输出对下一时间片输入的影响上),而Transformer的e...原创 2019-09-13 22:54:58 · 640 阅读 · 0 评论 -
transformer模型
transformer模型最近想学一下BERT,在这之前就先学了一下transformer。transformer原本是用来做机器翻译的,大概的体系结构长这样:Encoder-Decoder框架这个框架主要用在机器翻译和机器问答领域,就是有两个组件Encoder和Decoder。对于给定的输入source (x1,x2,x3,…,xn), 首先编码器将其编码成一个中间表示向量z=(z1,...原创 2019-09-12 21:11:38 · 331 阅读 · 0 评论 -
利用Keras实现的CNN进行文本分类
利用Keras实现的CNN进行文本分类上一篇博文已经分析了CNN如何应用在文本分类中:https://blog.csdn.net/qq_43012160/article/details/96572537这一篇我们来讲一讲怎么用keras实现一个CNN并用它来文本分类。先放一张原理图:数据集和源码:链接:https://pan.baidu.com/s/1XWBOcCMvHRuZEGdk...原创 2019-07-22 22:38:30 · 2082 阅读 · 8 评论 -
数据预处理优化、词云和tf-idf
数据预处理优化、词云和tf-idf这次换了一个中文的多文件多分类数据集,下面是数据集和代码:链接:https://pan.baidu.com/s/1dRCS5rCMbq2_lfGkr4vjJw提取码:ojdl这里我没有用他文件夹里给的stoplist。多文件数据集的读入处理有时候我们的数据集并不是csv文件,而是更加原始的txt文件,而且还可能存储在多个文件中,这也更贴近实际情况,这次...原创 2019-07-25 21:33:26 · 1151 阅读 · 0 评论 -
CNN在文本分类中的应用
CNN在文本分类中的应用参考了:https://www.kesci.com/home/project/5d15a8fe708b90002c6c368c?tdsourcetag=s_pcqq_aiomsg和https://blog.csdn.net/u012808902/article/details/81155509援引论文《Convolutional Neural Networks for...原创 2019-07-20 14:19:46 · 1025 阅读 · 0 评论 -
文本分类的14种算法总结
文本分类的14种算法总结之前总结了14种文本分类中的常用算法,包括8种传统算法:k临近、决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、逻辑回归和支持向量机;4种集成学习算法:随机森林、AdaBoost、lightGBM和xgBoost;2种深度学习算法:前馈神经网络和LSTM。各篇链接如下:测试环境搭建与数据预处理:https://blog.csdn.net...原创 2019-07-17 19:54:11 · 32275 阅读 · 15 评论