![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
新闻分类比赛学习
我是飞行模式
NLP
展开
-
新闻分类大赛task6
bert的方法 由于数据采用匿名形式,使用bert需要自行训练模型。原创 2020-08-04 22:36:06 · 125 阅读 · 0 评论 -
新闻分类大赛task5
深度学习的文本分类TextCNN import logging import random import numpy as np import torch logging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s') # set seed seed = 666 random.seed(seed) np.random.seed(seed) torch.cuda.manual_see原创 2020-07-31 22:02:04 · 85 阅读 · 0 评论 -
新闻分类大赛task4
构造数据 在fasttext中,标签使用__label__X的形式表示,text label存为csv。 train_df = pd.read_csv(rtrain_set.csv",sep='\t', nrows=15000) train_df['label_ft'] = '__label__' + train_df['label'].astype(str) train_df[['text','label_ft']].iloc[:-5000].to_csv('train.csv', index=None,原创 2020-07-27 22:44:05 · 98 阅读 · 0 评论 -
新闻分类大赛task3
文本表示方法 采用词袋模型进行文本表示,使用sklearn中CountVectorizer函数 from sklearn.feature_extraction.text import TfidfVectorizer corpus = [ 'This is the first document.', 'This is the second second document.', 'And the third one.', 'Is this the first document?'原创 2020-07-25 23:07:27 · 71 阅读 · 0 评论 -
新闻分类大赛task2
文本长度 昨天错误以为文本格式为list,,直接使用len()函数对text进行长度计算。 今天才发现就是普通文本格式“3 24 53”,需要使用split函数进行切分求长度。 20万条新闻数据,平均长度为987,最长57921,最短为2,长度分布不太均匀。初步判断为长文本分类。 类别分布 利用pandas数据透视,分析每个Label数据量。 table = pd.pivot_table(train_df,index=['label'],aggfunc='count') print(table) .原创 2020-07-22 23:52:07 · 72 阅读 · 0 评论 -
新闻分类大赛赛题分析
@新闻分类大赛赛题分析 本文对天池新闻文本分类比赛进行赛题分析。 1 数据格式 训练集为csv格式文件,使用pandas读取前十行,结果如图。 import pandas as pd train_df = pd.read_csv(r'train_set.csv', sep='\t') print(len(train_df)) print(train_df.head(10)) 训练集一共20万条数据。 数据集中标签label的对应的关系如下:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’原创 2020-07-21 17:40:17 · 181 阅读 · 0 评论