TNEWS今日头条中文新闻（短文本）分类

Laura_Wangzx

已于 2022-11-29 13:34:30 修改

阅读量5.9k

点赞数

分类专栏： NLP自然语言处理文章标签：人工智能

于 2021-01-03 22:31:40 首次发布

本文链接：https://blog.csdn.net/qq_37486501/article/details/112142023

版权

NLP自然语言处理专栏收录该内容

16 篇文章

订阅专栏

数据分析：

数据分布情况：占比例多少
文本：一句话多长。截断处理。平均50个字<=110词。(分完词的长度)

多分类： (代码可复现)

方法一：6个二分类器。一条句子分别跑6个模型，分最高，选哪个。（效果好）
方法二：一个模型直接预测出属于哪类。

决策树，SVM，

TNEWS’ 今日头条中文新闻（短文本）分类 Short Text Classificaiton for News

数据集

数据集来自今日头条的新闻版块，共提取了15个类别的新闻，包括旅游，教育，金融，军事等。
数据量：训练集(53,360)，验证集(10,000)，测试集(10,000)

训练集

Train.json：
<label分类，label_desc分类名称，sentence新闻字符串>
例子：
{“label”: “108”, “label_desc”: “news_edu”, “sentence”: “上课时学生手机响个不停，老师一怒之下把手机摔了，家长拿发票让老师赔，大家怎么看待这种事？”, “keywords”: “”}
labels.json：
<label分类，label_desc分类名称>

label分类	label_desc分类名称	（15分类）
100	news_story
101	news_culture	文化
102	news_entertainment	娱乐
103	news_sports	体育
104	news_finance	财经
106	news_house
107	news_car
108	news_edu	教育
109	news_tech	科技
110	news_military	军事
112	news_travel	旅行
113	news_world	世界
114	news_stock	股票
115	news_agriculture
116	news_game	游戏

验证集

dev.json
<label，label_desc，sentence，keywords关键词>
例子：
{“label”: “102”, “label_desc”: “news_entertainment”, “sentence”: “江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物”, “keywords”: “江疏影,美少女,经纪人,甜甜圈”}