关于对Reuters-21578数据集的处理

最新推荐文章于 2024-01-05 10:03:07 发布

weixin_34391445

最新推荐文章于 2024-01-05 10:03:07 发布

阅读量2.3k

点赞数

文章标签：人工智能 python

原文链接：https://my.oschina.net/u/1461744/blog/284121

版权

本文介绍了如何处理Reuters-21578数据集，包括数据的获取、文本清理、数据划分以及特征工程，为文本分类任务做准备。通过对原始数据的预处理，如去除标点、数字和不必要的标签，建立单词库，并将文本转化为数字数据。

摘要由CSDN通过智能技术生成

2019独角兽企业重金招聘Python工程师标准>>>

好长时间没写东西了，之前的两篇都是在写论文的过程中记录的，悲剧的是论文被拒了%>_<%，其中有审稿意见说对比实验有些薄弱，需要在更多的数据集上实验证明论点的有效性，就选择了Reuters-21578进行扩展实验。

数据集可以在这里下载到：http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html

这里就简单记录一下数据集的一些信息，整理整理处理的过程。

Reuters-21578是一个英文的预料库，很多时候被用来做文本分类或其他相关研究。压缩包中真正的数据被存放在22个SGM文件中，可以用notepad直接打开查看，处理的时候直接按照文本文件处理会比较方便。

接下来的一部分内容在readme中都有，可以跳过：

一个文件的内容是这样的：

<!DOCTYPE lewis SYSTEM "lewis.dtd">

最低0.47元/天解锁文章

weixin_34391445

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
关于对Reuters-21578数据集的处理

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

weixin_34391445 CSDN认证博客专家 CSDN认证企业博客

码龄8年

149: 原创

-: 周排名

98万+: 总排名

143万+: 访问

: 等级

7939: 积分

5227: 粉丝

260: 获赞

39: 评论

1490: 收藏

私信

关注

热门文章

最新评论

BIM是什么东西
爱卿别来无恙啊: “BIM化建筑设计生产方式是计算机进一步代替大脑计算工作的设计生产方式的进步，比如映射和过滤的计算，同时通过建筑信息实体也改变了存储的信息之间的逻辑关联与表达关系，比如建筑信息模型，使信息的BIM化管理也成为可能。” —— 《建筑设计生产BIM化》
js数学小知识之巧妙取反
陪星河入梦314: 您小子挺行啊
基于Windows7下snort+apache+php 7 + acid（或者base） + adodb + jpgraph的入侵检测系统的搭建（图文详解）（博主推荐）...
『Solitude 』: snort_2.8.6_installer.exe 安装报有没有
Chat-React基于react的聊天会话组件
weixin_44438054: 历史数据怎么清空啊
使用Echarts3实现渐变仪表盘需求
Ｓòrry╮: 可以自己加个指针 pointer: { icon: 'path://M2.9,0.7L2.9,0.7c1.4,0,2.6,1.2,2.6,2.6v115c0,1.4-1.2,2.6-2.6,2.6l0,0c-1.4,0-2.6-1.2-2.6-2.6V3.3C0.3,1.9,1.4,0.7,2.9,0.7z', length: '16%', width: 2, offsetCenter: [0, '-100%'], itemStyle: { color: 'auto' } },

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。