1.赛题背景
赛题以自然语言处理为背景,根据新闻文本字符对新闻的类别进行分类。涉及NLP的预处理、模型构建和模型训练等。
2.学习目标
- 理解赛题背景和赛题数据。
- 完成数据下载,理清解题思路。
3.赛题数据
赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。
4.数据标签
处理后的赛题训练数据如下:
在数据集中标签的对应的关系如下:
{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}
赛题数据来源为互联网上的新闻,通过收集并匿名处理得到。因此选手可以自行进行数据分析,可以充分发挥自己的特长来完成各种特征工程,不限制使用任何外部数据和模型。
5.测评指标
评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。
计算公式:
6.数据读取
使用pandas库完成数据读取。
import pandas as pd
train_df = pd.read_csv('train_set.csv', sep='\t')
train_df
label | text | |
---|---|---|
0 | 2 | 2967 6758 339 2021 1854 3731 4109 3792 4149 15... |
1 | 11 | 4464 486 6352 5619 2465 4802 1452 3137 5778 54... |
2 | 3 | 7346 4068 5074 3747 5681 6093 1777 2226 7354 6... |
3 | 2 | 7159 948 4866 2109 5520 2490 211 3956 5520 549... |
4 | 3 | 3646 3055 3055 2490 4659 6065 3370 5814 2465 5... |
5 | 9 | 3819 4525 1129 6725 6485 2109 3800 5264 1006 4... |
6 | 3 | 307 4780 6811 1580 7539 5886 5486 3433 6644 58... |
7 | 10 | 26 4270 1866 5977 3523 3764 4464 3659 4853 517... |
8 | 12 | 2708 2218 5915 4559 886 1241 4819 314 4261 166... |
9 | 3 | 3654 531 1348 29 4553 6722 1474 5099 7541 307 ... |
10 | 0 | 3659 3659 1903 1866 4326 4744 7239 3479 4261 4... |
11 | 7 | 6469 1066 1623 1018 3694 4089 3809 4516 6656 3... |
12 | 4 | 3772 4269 3433 6122 2035 4531 465 6565 498 358... |
13 | 0 | 4630 2210 1641 1854 1641 4543 3017 4409 5430 6... |
14 | 0 | 1103 6835 3433 2107 5165 7543 3598 5229 1946 2... |
15 | 1 | 4412 5988 5036 4216 7539 5644 1906 2380 2252 6... |
16 | 1 | 2400 4411 5968 2612 6920 4464 3659 6250 2799 5... |
17 | 2 | 2410 6587 6644 2727 4109 5247 5310 5547 5949 7... |
18 | 4 | 3170 3508 4163 2974 1952 4417 4987 5505 4163 2... |
19 | 2 | 4269 3772 5445 2289 2109 5410 1991 5589 2986 1... |
20 | 0 | 6569 4690 2663 5391 1315 3987 1519 4893 7539 3... |
21 | 1 | 3017 505 1070 1036 2621 4480 5117 3772 4786 56... |
22 | 2 | 3263 6104 7539 5744 2827 2367 4893 1647 4315 1... |
23 | 2 | 3418 1939 220 6886 623 149 1679 3099 1324 7543... |
24 | 12 | 314 4261 1667 2810 2334 5176 2376 4646 478 132... |
25 | 4 | 7154 2592 5562 2828 4559 2376 5780 3650 3203 5... |
26 | 3 | 1965 2717 2728 1951 3744 4831 5698 3915 5099 5... |
27 | 4 | 6861 6654 1362 4333 3272 1697 7044 1519 4516 4... |
28 | 1 | 1141 5915 6178 4842 6725 7261 7408 4671 6846 5... |
29 | 1 | 2289 6357 3577 751 2402 3377 5589 4853 7467 51... |
... | ... | ... |
199970 | 7 | 6835 5296 1854 5036 1844 2400 2438 6093 3961 1... |
199971 | 4 | 56 4411 5410 1215 3912 1829 6613 1563 4040 125... |
199972 | 0 | 623 6637 6680 4893 4063 6111 5330 2465 1744 41... |
199973 | 0 | 4923 7449 3055 1116 2289 1736 531 7539 5269 18... |
199974 | 1 | 2642 4909 7306 2549 7539 3107 2549 2328 2164 5... |
199975 | 2 | 3661 1731 6352 3508 531 4998 5315 851 5530 663... |
199976 | 2 | 6405 3203 6644 4350 3568 5094 5221 4958 3608 7... |
199977 | 2 | 6227 6227 4333 4183 3792 2490 3971 408 671 715... |
199978 | 2 | 4173 5603 4960 150 2679 2376 5530 5057 669 356... |
199979 | 2 | 6549 2313 3743 6065 4464 7543 4173 2828 3012 5... |
199980 | 5 | 1334 3923 7532 6045 4553 4775 3018 7013 6983 4... |
199981 | 5 | 6357 150 4233 23 4811 2334 3317 7010 5282 3971... |
199982 | 4 | 4411 150 5480 307 6973 2364 3648 5370 2380 620... |
199983 | 1 | 847 3809 5385 281 4301 3560 3809 3694 299 6656... |
199984 | 0 | 7544 134 5659 6065 4646 3370 803 469 7047 2415... |
199985 | 0 | 5057 1859 7449 4659 4543 3976 2465 2515 3329 2... |
199986 | 3 | 141 6956 7528 7495 7354 5681 5530 2112 3000 28... |
199987 | 2 | 3000 3148 5139 5977 2490 1308 5498 2289 2614 2... |
199988 | 4 | 517 5620 2986 7539 2255 3915 5445 1460 6587 42... |
199989 | 1 | 3469 3772 3117 4413 2313 3743 1070 2107 2621 5... |
199990 | 4 | 6811 1580 7539 6193 5169 7219 2022 5296 2364 4... |
199991 | 2 | 5511 4893 2115 5192 3934 6256 3554 2457 2282 1... |
199992 | 0 | 3479 6662 1913 4641 2465 2465 495 4516 1146 69... |
199993 | 0 | 1363 4409 2210 3961 5736 2539 3012 2380 5689 2... |
199994 | 3 | 1640 5310 2923 913 7109 6992 6722 6337 3982 73... |
199995 | 2 | 307 4894 7539 4853 5330 648 6038 4409 3764 603... |
199996 | 2 | 3792 2983 355 1070 4464 5050 6298 3782 3130 68... |
199997 | 11 | 6811 1580 7539 1252 1899 5139 1386 3870 4124 1... |
199998 | 2 | 6405 3203 6644 983 794 1913 1678 5736 1397 191... |
199999 | 3 | 4350 3878 3268 1699 6909 5505 2376 2465 6088 2... |
200000 rows × 2 columns
train_df.describe()
label | |
---|---|
count | 200000.000000 |
mean | 3.210950 |
std | 3.084955 |
min | 0.000000 |
25% | 1.000000 |
50% | 2.000000 |
75% | 5.000000 |
max | 13.000000 |
7.解题思路
文本分类问题需要根据每句的字符进行分类,数据是匿名化的,不能直接使用中文分词等操作。分为两部分:特征提取和分类模型。可用TF-IDF + 机器学习分类器。