Datawhale组队学习
gorilla1211
这个作者很懒,什么都没留下…
展开
-
零基础入门NLP - 新闻文本分类 | 天池 | Task6 基于深度学习的文本分类3
Transformer原理 Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。 我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个self-attention层,该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网.原创 2020-08-05 16:23:24 · 263 阅读 · 1 评论 -
零基础入门NLP - 新闻文本分类 | 天池 | Task5 基于深度学习的文本分类2
Word2vec from gensim.models.word2vec import Word2Vec model = Word2Vec(sentences, workers=num_workers, size=num_features) TextCNN 模型构建 self.filter_sizes = [2, 3, 4] # n-gram window self.out_channel = 100 self.convs = nn.ModuleList([nn.Conv2d(1, se.原创 2020-07-31 19:32:17 · 158 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类 | 天池 | Task4 基于深度学习的文本分类1
Fasttext FastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。 FastText是一个三层的神经网络,输入层、隐含层和输出层。 import pandas as pd from sklearn.metrics import f1_score train_df = pd.read_csv('../input/train_set.csv', sep='\t',原创 2020-07-27 22:10:34 · 144 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类 | 天池 | Task3 基于机器学习的文本分类
文本表示方法 文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(word embedding)方法。具体将每个字/词编码一个索引,然后根据索引进行赋值。 One-hot n维稀疏向量,向量中某一位为1,其余为0. 例子: 句子1:我爱北京天安门 句子2:我喜欢上海 首先对所有句子的字进行索引,即将每个字确定一个编号: { '我': 1, '爱': 2, '北': 3, '京': 4, '天': 5, '安': 6, '门': 7, '喜': 8, '欢': 9, '上': 1原创 2020-07-25 10:39:34 · 146 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类 | 天池 | Task2 数据读取与数据分析
数据读取 训练集保存在train_set.csv中,使用pandas的read_csv函数进行数据读取。 import pandas as pd # 读取train_set.csv数据 # n_rows为读取行数 def load_train_set(): return pd.read_csv('./train_set.csv', sep='\t', nrows=200000) train_df = load_train_set() 数据分析 概况 DataFrame.header(原创 2020-07-22 22:45:50 · 256 阅读 · 0 评论 -
零基础入门NLP - 新闻文本分类 | 天池 | Task1 赛题理解
赛题背景 赛事名称:天池大赛 > 学习赛 > 零基础入门NLP - 新闻文本分类 赛事链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction?spm=5176.12281973.1005.1.3dd51f54T3P3Ho 赛题简介:赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类。这是一个经典文本分类问题,旨在带领选手了解并实践NLP的预处理、模型构建和模型训练等。原创 2020-07-21 15:45:33 · 270 阅读 · 0 评论