新闻文本分类—赛题理解_数据来源于第十届中国软件杯大赛 a 组赛题中的新闻文本分类算法竞赛csdn、-CSDN博客

本文链接：https://blog.csdn.net/sinat_34953318/article/details/107492559

文章目录

1.赛题背景

赛题以自然语言处理为背景，根据新闻文本字符对新闻的类别进行分类。涉及NLP的预处理、模型构建和模型训练等。

2.学习目标

理解赛题背景和赛题数据。
完成数据下载，理清解题思路。

3.赛题数据

赛题数据为新闻文本，并按照字符级别进行匿名处理。整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
赛题数据由以下几个部分构成：训练集20w条样本，测试集A包括5w条样本，测试集B包括5w条样本。为了预防选手人工标注测试集的情况，我们将比赛数据的文本按照字符级别进行了匿名处理。

4.数据标签

处理后的赛题训练数据如下：

label text6 57 44 66 56 2 3 3 37 5 41 9 57 44 47 45 33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44 45 33 25 28 47 22 52 35 30 14 24 69 54 7 48 19 11 51 16 43 26 34 53 27 64 8 4 42 36 46 65 69 29 39 15 37 57 44 45 33 69 54 7 25 40 35 30 66 56 47 55 69 61 10 60 42 36 46 65 37 5 41 32 67 6 59 47 0 1 1 68

在数据集中标签的对应的关系如下：

{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}
赛题数据来源为互联网上的新闻，通过收集并匿名处理得到。因此选手可以自行进行数据分析，可以充分发挥自己的特长来完成各种特征工程，不限制使用任何外部数据和模型。

5.测评指标

评价标准为类别f1_score的均值，选手提交结果与实际测试集的类别进行对比，结果越大越好。
计算公式：

6.数据读取

使用pandas库完成数据读取。

import pandas as pd

train_df = pd.read_csv('train_set.csv', sep='\t')

train_df

	label	text
0	2	2967 6758 339 2021 1854 3731 4109 3792 4149 15...
1	11	4464 486 6352 5619 2465 4802 1452 3137 5778 54...
2	3	7346 4068 5074 3747 5681 6093 1777 2226 7354 6...
3	2	7159 948 4866 2109 5520 2490 211 3956 5520 549...
4	3	3646 3055 3055 2490 4659 6065 3370 5814 2465 5...
5	9	3819 4525 1129 6725 6485 2109 3800 5264 1006 4...
6	3	307 4780 6811 1580 7539 5886 5486 3433 6644 58...
7	10	26 4270 1866 5977 3523 3764 4464 3659 4853 517...
8	12	2708 2218 5915 4559 886 1241 4819 314 4261 166...
9	3	3654 531 1348 29 4553 6722 1474 5099 7541 307 ...
10	0	3659 3659 1903 1866 4326 4744 7239 3479 4261 4...
11	7	6469 1066 1623 1018 3694 4089 3809 4516 6656 3...
12	4	3772 4269 3433 6122 2035 4531 465 6565 498 358...
13	0	4630 2210 1641 1854 1641 4543 3017 4409 5430 6...
14	0	1103 6835 3433 2107 5165 7543 3598 5229 1946 2...
15	1	4412 5988 5036 4216 7539 5644 1906 2380 2252 6...
16	1	2400 4411 5968 2612 6920 4464 3659 6250 2799 5...
17	2	2410 6587 6644 2727 4109 5247 5310 5547 5949 7...
18	4	3170 3508 4163 2974 1952 4417 4987 5505 4163 2...
19	2	4269 3772 5445 2289 2109 5410 1991 5589 2986 1...
20	0	6569 4690 2663 5391 1315 3987 1519 4893 7539 3...
21	1	3017 505 1070 1036 2621 4480 5117 3772 4786 56...
22	2	3263 6104 7539 5744 2827 2367 4893 1647 4315 1...
23	2	3418 1939 220 6886 623 149 1679 3099 1324 7543...
24	12	314 4261 1667 2810 2334 5176 2376 4646 478 132...
25	4	7154 2592 5562 2828 4559 2376 5780 3650 3203 5...
26	3	1965 2717 2728 1951 3744 4831 5698 3915 5099 5...
27	4	6861 6654 1362 4333 3272 1697 7044 1519 4516 4...
28	1	1141 5915 6178 4842 6725 7261 7408 4671 6846 5...
29	1	2289 6357 3577 751 2402 3377 5589 4853 7467 51...
...	...	...
199970	7	6835 5296 1854 5036 1844 2400 2438 6093 3961 1...
199971	4	56 4411 5410 1215 3912 1829 6613 1563 4040 125...
199972	0	623 6637 6680 4893 4063 6111 5330 2465 1744 41...
199973	0	4923 7449 3055 1116 2289 1736 531 7539 5269 18...
199974	1	2642 4909 7306 2549 7539 3107 2549 2328 2164 5...
199975	2	3661 1731 6352 3508 531 4998 5315 851 5530 663...
199976	2	6405 3203 6644 4350 3568 5094 5221 4958 3608 7...
199977	2	6227 6227 4333 4183 3792 2490 3971 408 671 715...
199978	2	4173 5603 4960 150 2679 2376 5530 5057 669 356...
199979	2	6549 2313 3743 6065 4464 7543 4173 2828 3012 5...
199980	5	1334 3923 7532 6045 4553 4775 3018 7013 6983 4...
199981	5	6357 150 4233 23 4811 2334 3317 7010 5282 3971...
199982	4	4411 150 5480 307 6973 2364 3648 5370 2380 620...
199983	1	847 3809 5385 281 4301 3560 3809 3694 299 6656...
199984	0	7544 134 5659 6065 4646 3370 803 469 7047 2415...
199985	0	5057 1859 7449 4659 4543 3976 2465 2515 3329 2...
199986	3	141 6956 7528 7495 7354 5681 5530 2112 3000 28...
199987	2	3000 3148 5139 5977 2490 1308 5498 2289 2614 2...
199988	4	517 5620 2986 7539 2255 3915 5445 1460 6587 42...
199989	1	3469 3772 3117 4413 2313 3743 1070 2107 2621 5...
199990	4	6811 1580 7539 6193 5169 7219 2022 5296 2364 4...
199991	2	5511 4893 2115 5192 3934 6256 3554 2457 2282 1...
199992	0	3479 6662 1913 4641 2465 2465 495 4516 1146 69...
199993	0	1363 4409 2210 3961 5736 2539 3012 2380 5689 2...
199994	3	1640 5310 2923 913 7109 6992 6722 6337 3982 73...
199995	2	307 4894 7539 4853 5330 648 6038 4409 3764 603...
199996	2	3792 2983 355 1070 4464 5050 6298 3782 3130 68...
199997	11	6811 1580 7539 1252 1899 5139 1386 3870 4124 1...
199998	2	6405 3203 6644 983 794 1913 1678 5736 1397 191...
199999	3	4350 3878 3268 1699 6909 5505 2376 2465 6088 2...