数据分析:
- 数据分布情况:占比例多少
- 文本 :一句话多长。截断处理。 平均50个字<=110词。(分完词的长度)
多分类: (代码可复现)
方法一:6个二分类器。一条句子分别跑6个模型,分最高,选哪个。(效果好)
方法二:一个模型直接预测出属于哪类。
决策树,SVM,
TNEWS’ 今日头条中文新闻(短文本)分类 Short Text Classificaiton for News
数据集
数据集来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。
数据量:训练集(53,360),验证集(10,000),测试集(10,000)
- 训练集
Train.json:
<label分类,label_desc分类名称,sentence新闻字符串>
例子:
{“label”: “108”, “label_desc”: “news_edu”, “sentence”: “上课时学生手机响个不停,老师一怒之下把手机摔了,家长拿发票让老师赔,大家怎么看待这种事?”, “keywords”: “”}
labels.json:
<label分类,label_desc分类名称>
label分类 | label_desc分类名称 | (15分类) |
---|---|---|
100 | news_story | |
101 | news_culture | 文化 |
102 | news_entertainment | 娱乐 |
103 | news_sports | 体育 |
104 | news_finance | 财经 |
106 | news_house | |
107 | news_car | |
108 | news_edu | 教育 |
109 | news_tech | 科技 |
110 | news_military | 军事 |
112 | news_travel | 旅行 |
113 | news_world | 世界 |
114 | news_stock | 股票 |
115 | news_agriculture | |
116 | news_game | 游戏 |
- 验证集
dev.json
<label,label_desc,sentence,keywords关键词>
例子:
{“label”: “102”, “label_desc”: “news_entertainment”, “sentence”: “江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物”, “keywords”: “江疏影,美少女,经纪人,甜甜圈”}
- 测试集
Test.json:
<id,sentence新闻字符串,keywords关键词>
例子:
{“id”: 0, “sentence”: “在设计史上,每当相对稳定的发展时期,这种设计思想就会成为主导”, “keywords”: “民族性,设计思想,继承型设计,复古主义,服装史”}