零基础入门NLP赛事-新闻文本分类记录 task1

qq_24854953

于 2020-07-21 20:46:53 发布

阅读量121

点赞数

分类专栏：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24854953/article/details/107497738

版权

神经网络专栏收录该内容

4 篇文章 0 订阅

订阅专栏

赛题描述
数据为：匿名处理后的新闻数据。数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。赛题训练数据如下：
评价标准为：f1-score,显然越大越好
提交结果：输出每一条test’数据所属的类别
思路
本质上是一个分类问题，要根据文本每一句的字符进行分类。但是赛题数据是匿名的，不能直接根据中文分词。所以要对匿名字符进行建模再分类文本。
几个解题思路：
1. TF-IDF + 机器学习分类器
  TF-IDF 即词频-逆文档频率。常用于信息检索和文本挖掘，比如寻找文本相似性，关键词提取，此处显然适合用于提取特征。
  TF-IDF是一种统计方法，用以评估一个字/词对于一个文件集/语料库中的一份文件的重要程度。字词的重要性同其在文件中出现的次数成正比，同其在语料库中出现的频率成反比。
  所以TF-IDF，实际上是TF * IDF，倾向于过滤掉常见的词语，留下重要的词语。显然不适合一词多义，一义多词以及其他更复杂的情况。但是对于相对简单的情况，特征提取的效果较好。
  提取完特征后，相当于对特征降维，再用常见的SVM,GBDT等机器学习分类器进行分类。
2. FastText
  是一种深度学习词向量的典型表示方法。通过将单词映射到高维空间，然后对句子中所有单词在embedding空间中进行平均，叠加获得文档向量，将相似的句子分为一类，从而完成分类操作。它的经典网络架构非常简单，就是一个包含输入层，隐含层，输出层的三层神经网络。
3. WordVec + 深度学习分类器
  Word2vec实际上是根据context也就是上下文对词进行预测。每一个输入文本，选取一个上下文窗口和中心词，根据中心词去预测窗口里其他次出现的频率。也就是通过上下文和单词彼此预测，分别对应两个算法Skip-grams（SG，预测上下文）和Continouous bag of words（CBOW，预测目标单词）。同时它可以很容易从新增预料中学习新词的向量表达，属于online learing。
4. Bert词向量
  基于预训练语言模型Bert的词向量表示，也是可以建模上下文信息的。它是一个基于Transformer的多层encoder，通过一系列的预训练获得深层的上下文表示。分为“预训练-微调“两阶段，第一阶段，在大量无标注文本上训练一个双向语言模型，由于采用transformer作为特征提取器，很好的解决了长距离依赖和并行性。将语法句法词法信息提炼为网络参数加入模型。第二阶段，使用下游任务的数据微调不同层的bert参数，或者把bert作为特征提取器生成bert embedding，再作为新特征加入到下游任务。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP赛事-新闻文本分类记录 task1

赛题描述数据为：匿名处理后的新闻数据。数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。赛题训练数据如下：评价标准为：f1-score,显然越大越好提交结果：输出每一条test’数据所属的类别思路本质上是一个分类问题，要根据文本每一句的字符进行分类。但是赛题数据是匿名的，不能直..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。