NLP
Lester18
这个作者很懒,什么都没留下…
展开
-
自然语言处理 Task6 基于深度学习的文本分类3
Task6 基于深度学习的文本分类3变压器原理Transformer是在“ Attention is All You Need ”中提出的,模型的编码部分是一组编码器的堆叠(论文中依次插入六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。它们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的矢量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的原创 2020-08-04 21:09:51 · 319 阅读 · 1 评论 -
自然语言处理 Task5 基于深度学习的文本分类2
Task5 基于深度学习的文本分类2学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,我们选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法原创 2020-07-31 22:55:02 · 263 阅读 · 0 评论 -
自然语言处理 Task 4 基于深度学习的文本分类1
Task 4 基于深度学习的文本分类1与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。FastText在文本分类任务上,是优于TF-IDF的:FastText用单词的Embedding叠加获得的文档向量,将相原创 2020-07-27 20:36:46 · 134 阅读 · 0 评论 -
自然语言处理 Task 3 基于机器学习的文本分类
Task 3 基于机器学习的文本分类文本表示方法 Part1在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedding)方法。词嵌入将不定长的文本转换到原创 2020-07-25 21:35:45 · 163 阅读 · 0 评论 -
自然语言处理 Task 2 数据读取与数据分析
Task2 数据读取与数据分析import pandas as pd #引入pandas库import matplotlib.pyplot as plt #引入matplotlibtrain_df = pd.read_csv(r'D:\NLP\train_set.csv', sep='\t', nrows=200000)#导入数据集train_df.head(5) #前五个数据train_df['text_len'] = train_df['text'].apply(lambda x:原创 2020-07-22 23:18:56 · 237 阅读 · 0 评论 -
自然语言处理 Task1 赛题理解
自然语言处理 Task1 赛题理解赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处原创 2020-07-21 20:57:31 · 227 阅读 · 0 评论