NLP学习
自然语言处理
sosososoon
这个作者很懒,什么都没留下…
展开
-
基于深度学习的文本分类 3
基于深度学习的文本分类TransformerTransformer是一种完全基于Attention机制来加速深度学习训练过程的算法模型,其最大的优势在于其在并行化处理上做出的贡献。换句话说,Transformer就是一个带有self-attention机制的seq2seq 模型,即输入是一个sequence,输出也是一个sequence的模型。如下图所示: self-attention的架构假设有x1、x2、x3、x4x1、x2、x3、x4x1、x2、x3、x4四个序列,首先进行带权乘法a原创 2020-08-04 21:51:49 · 733 阅读 · 1 评论 -
基于深度学习的文本分类 2
基于深度学习的文本分类word2vecword2vec模型的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达。word2vec的主要思路:通过单词的上下文彼此预测,对应的两个算法分别为:Skip-grams(SG):预测上下文Continuous Bags of Words(CBOW):预测目标单词 从直观上理解,Ski原创 2020-07-31 20:09:30 · 1337 阅读 · 0 评论 -
基于深度学习的文本分类 1
基于深度学习的文本分类FastTextFastText是一种典型的深度学习词向量的表示方法,其核心思想是将整篇文档的词及n-gram向量进行加权平均得到文档向量,然后使用文档向量做softmax多分类。主要功能在于:文本分类:有监督学习词向量表征:无监督学习FastText的模型框架如下图所示 输入层:embedding后的多个单词及其n-gram特征,用这些特征来表示整个文档隐藏层:对多个词向量的叠加平均输出层:是文档对应的类别标签;采用分层softmax用k原创 2020-07-27 21:29:29 · 775 阅读 · 0 评论 -
基于机器学习的文本分类
基于机器学习的文本分类机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习通过历史数据训练出模型,然后利用学习获得的模型对新数据进行预测A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, imp原创 2020-07-24 01:35:55 · 1213 阅读 · 4 评论 -
数据读取与数据分析
数据读取与数据分析读取数据利用Pandas库读取数据train_df = pd.read_csv('./data/train_set.csv', sep='\t')train_df.head()读取结果如下 label为新闻对应的类别,text为处理后的文章内容,每个数字对应一个字。Tips:将读取好的数据储存为pickle格式train_df.to_pickle('./data/train.pkl') # 生成pickle文件后面再读取时直接读取pickle文件可以提高读原创 2020-07-20 20:53:51 · 895 阅读 · 0 评论 -
赛题解读
赛题解读原创 2020-07-20 20:37:05 · 369 阅读 · 0 评论