新闻文本分类—赛题理解

1.赛题背景

赛题以自然语言处理为背景,根据新闻文本字符对新闻的类别进行分类。涉及NLP的预处理、模型构建和模型训练等。

2.学习目标

  1. 理解赛题背景和赛题数据。
  2. ­完成数据下载,理清解题思路。

3.赛题数据

赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。
赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了匿名处理。

4.数据标签

处理后的赛题训练数据如下:

label	text6	57 44 66 56 2 3 3 37 5 41 9 57 44 47 45 33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44 45 33 25 28 47 22 52 35 30 14 24 69 54 7 48 19 11 51 16 43 26 34 53 27 64 8 4 42 36 46 65 69 29 39 15 37 57 44 45 33 69 54 7 25 40 35 30 66 56 47 55 69 61 10 60 42 36 46 65 37 5 41 32 67 6 59 47 0 1 1 68

在数据集中标签的对应的关系如下:

{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}
赛题数据来源为互联网上的新闻,通过收集并匿名处理得到。因此选手可以自行进行数据分析,可以充分发挥自己的特长来完成各种特征工程,不限制使用任何外部数据和模型。

5.测评指标

评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。
计算公式:
计算公式

​6.数据读取

使用pandas库完成数据读取。

import pandas as pd
train_df = pd.read_csv('train_set.csv', sep='\t')
train_df
labeltext
022967 6758 339 2021 1854 3731 4109 3792 4149 15...
1114464 486 6352 5619 2465 4802 1452 3137 5778 54...
237346 4068 5074 3747 5681 6093 1777 2226 7354 6...
327159 948 4866 2109 5520 2490 211 3956 5520 549...
433646 3055 3055 2490 4659 6065 3370 5814 2465 5...
593819 4525 1129 6725 6485 2109 3800 5264 1006 4...
63307 4780 6811 1580 7539 5886 5486 3433 6644 58...
71026 4270 1866 5977 3523 3764 4464 3659 4853 517...
8122708 2218 5915 4559 886 1241 4819 314 4261 166...
933654 531 1348 29 4553 6722 1474 5099 7541 307 ...
1003659 3659 1903 1866 4326 4744 7239 3479 4261 4...
1176469 1066 1623 1018 3694 4089 3809 4516 6656 3...
1243772 4269 3433 6122 2035 4531 465 6565 498 358...
1304630 2210 1641 1854 1641 4543 3017 4409 5430 6...
1401103 6835 3433 2107 5165 7543 3598 5229 1946 2...
1514412 5988 5036 4216 7539 5644 1906 2380 2252 6...
1612400 4411 5968 2612 6920 4464 3659 6250 2799 5...
1722410 6587 6644 2727 4109 5247 5310 5547 5949 7...
1843170 3508 4163 2974 1952 4417 4987 5505 4163 2...
1924269 3772 5445 2289 2109 5410 1991 5589 2986 1...
2006569 4690 2663 5391 1315 3987 1519 4893 7539 3...
2113017 505 1070 1036 2621 4480 5117 3772 4786 56...
2223263 6104 7539 5744 2827 2367 4893 1647 4315 1...
2323418 1939 220 6886 623 149 1679 3099 1324 7543...
2412314 4261 1667 2810 2334 5176 2376 4646 478 132...
2547154 2592 5562 2828 4559 2376 5780 3650 3203 5...
2631965 2717 2728 1951 3744 4831 5698 3915 5099 5...
2746861 6654 1362 4333 3272 1697 7044 1519 4516 4...
2811141 5915 6178 4842 6725 7261 7408 4671 6846 5...
2912289 6357 3577 751 2402 3377 5589 4853 7467 51...
.........
19997076835 5296 1854 5036 1844 2400 2438 6093 3961 1...
199971456 4411 5410 1215 3912 1829 6613 1563 4040 125...
1999720623 6637 6680 4893 4063 6111 5330 2465 1744 41...
19997304923 7449 3055 1116 2289 1736 531 7539 5269 18...
19997412642 4909 7306 2549 7539 3107 2549 2328 2164 5...
19997523661 1731 6352 3508 531 4998 5315 851 5530 663...
19997626405 3203 6644 4350 3568 5094 5221 4958 3608 7...
19997726227 6227 4333 4183 3792 2490 3971 408 671 715...
19997824173 5603 4960 150 2679 2376 5530 5057 669 356...
19997926549 2313 3743 6065 4464 7543 4173 2828 3012 5...
19998051334 3923 7532 6045 4553 4775 3018 7013 6983 4...
19998156357 150 4233 23 4811 2334 3317 7010 5282 3971...
19998244411 150 5480 307 6973 2364 3648 5370 2380 620...
1999831847 3809 5385 281 4301 3560 3809 3694 299 6656...
19998407544 134 5659 6065 4646 3370 803 469 7047 2415...
19998505057 1859 7449 4659 4543 3976 2465 2515 3329 2...
1999863141 6956 7528 7495 7354 5681 5530 2112 3000 28...
19998723000 3148 5139 5977 2490 1308 5498 2289 2614 2...
1999884517 5620 2986 7539 2255 3915 5445 1460 6587 42...
19998913469 3772 3117 4413 2313 3743 1070 2107 2621 5...
19999046811 1580 7539 6193 5169 7219 2022 5296 2364 4...
19999125511 4893 2115 5192 3934 6256 3554 2457 2282 1...
19999203479 6662 1913 4641 2465 2465 495 4516 1146 69...
19999301363 4409 2210 3961 5736 2539 3012 2380 5689 2...
19999431640 5310 2923 913 7109 6992 6722 6337 3982 73...
1999952307 4894 7539 4853 5330 648 6038 4409 3764 603...
19999623792 2983 355 1070 4464 5050 6298 3782 3130 68...
199997116811 1580 7539 1252 1899 5139 1386 3870 4124 1...
19999826405 3203 6644 983 794 1913 1678 5736 1397 191...
19999934350 3878 3268 1699 6909 5505 2376 2465 6088 2...

200000 rows × 2 columns

train_df.describe()
label
count200000.000000
mean3.210950
std3.084955
min0.000000
25%1.000000
50%2.000000
75%5.000000
max13.000000

7.解题思路

文本分类问题需要根据每句的字符进行分类,数据是匿名化的,不能直接使用中文分词等操作。分为两部分:特征提取和分类模型。可用TF-IDF + 机器学习分类器。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值