新闻文本分类
cymx66688
人生苦短,我用Python
展开
-
天池新闻推荐入门赛——特征工程
上一篇文章见 天池新闻推荐入门赛——多路召回一、构造原始特征文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征信息完特征工程之后, 直接就可以根据ar原创 2020-12-03 18:36:04 · 326 阅读 · 0 评论 -
天池新闻推荐入门赛——数据分析
数据分析内容明天加上原创 2020-11-27 23:08:09 · 230 阅读 · 0 评论 -
新闻文本分类-06 基于Bert的文本分类
上一章节采用Word2Vec做向量表示,通过TextCNN以及TextRNN的深度学习模型来做文本分类。这一章节采用bert微调,将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s原创 2020-08-04 23:02:45 · 2286 阅读 · 5 评论 -
新闻文本分类-05 基于word2vec+TextCNN+TextRNN的文本分类
上一章节使用深度学习来完成文本表示,通过fastText模型进行文本分类。这一章节采用Word2Vec做向量表示,通过TextCNN以及TextRNN的深度学习模型来做文本分类。1. Word2Vec使用gensim训练word2vec设置随机种子。import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %原创 2020-07-31 22:59:01 · 3054 阅读 · 1 评论 -
新闻本文分类-04 基于fastText的文本分类
在上一章节使用了传统机器学习算法解决文本分类问题,这章尝试使用深度学习来完成文本表示,通过fastText模型进行文本分类。fastText论文: Bag of Tricks for Efficient Text Classification1. fastText模型剖析1.1 概念FastText是一种典型的深度学习词向量的表示方法,它的核心思想是将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。这中间涉及到两个技巧:字符级n-gram特征的引入以及分层原创 2020-07-27 18:06:24 · 1214 阅读 · 3 评论 -
新闻本文分类-03 基于机器学习的文本分类
上一章节对新闻句子长度、类别和字符进行了可视化分析。这一章节我们通过机器学习做文本分类。1. 词向量源数据给的是文本是匿名话字符,不能直接放入模型中训练,需要对每个字符进行数学上的表征,也就是将字符映射为词向量。什么是词向量呢?词向量就是将词转化为向量形式的表示。词向量主要有两种,一种是传统机器学习中的one-hot编码方式,一种是基于深度学习的词嵌入技术。下面我们先学习下传统机器学习的词向量表示。1.1 One-Hot设词典的大小为n(词典中有n个词),假如某个词在词典中的位置为k,则设立一个n维原创 2020-07-25 22:33:54 · 1340 阅读 · 0 评论 -
新闻本文分类-02 数据读取与数据分析
上一章节主要介绍了赛题内容和解决方案的思路。本章节会对原始样本集读取数据并对文本作简单的分析。1. 加载包import reimport pandas as pdimport matplotlib.pyplot as pltfrom collections import Counter2. 数据读取通过read_csv方法读取.csv格式的数据。train_df = pd.read_csv('../input/train_set.csv', sep='\t')train_df.head(原创 2020-07-22 20:17:13 · 1049 阅读 · 1 评论 -
新闻本文分类-01赛题理解
新闻本文分类-01赛题理解该文是连载文章,基于新闻文本分类赛题从而入门自然语言处理。主要从赛题理解、数据读取与数据分析、基于机器学习的文本分类、基于深度学习的文本分类这四部分来学习NLP。一、赛题背景本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第三场 —— 零基础入门NLP之新闻文本分类挑战赛。新闻文本分类赛事链接赛题以自然语言处理为背景,要求选手根据新闻文本字符对新闻的类别进行分类,这是一个经典文本分类问题。通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处原创 2020-07-20 13:43:03 · 1086 阅读 · 0 评论