RCV1: A New Benchmark Collection for Text Categorization Research——1. Introduction 引言

“Text categorization is the automated assignment of natural language texts to predefined categories based on their content. It is a supporting technology in several information processing tasks, including controlled vocabulary indexing, routing and packaging of news and other text streams, content filtering (spam, pornography, etc.), information security, help desk automation, and others. Closely related technology is applicable to other classification tasks on text, including classification with respect to personalized or emerging classes (alerting systems, topic detection and tracking), noncontent based classes (author identification, language identification), and to mixtures of text with other data (multimedia and cross-media indexing, text mining).”
文本分类是将自然语言文本根据其内容自动分配到预先定义的类别。它是多种信息处理任务中的一种支持技术,包括受控词汇索引、新闻和其他文本流的路由和打包、内容过滤(垃圾邮件、色情内容等)、信息安全、服务台自动化等。密切相关的技术适用于其他文本分类任务,包括对个性化或新兴类的分类(报警系统、主题检测与跟踪)、非内容类(作者识别、语言识别)和混合文本与其他数据(多媒体和跨媒体索引、文本挖掘)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

淘淘图兔兔呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值