《R语言数据挖掘》----1.5　文本挖掘

weixin_34415923

于 2017-05-02 14:54:00 发布

阅读量123

点赞数

文章标签： r语言人工智能数据库

原文链接：https://yq.aliyun.com/articles/89555

版权

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.5节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5　文本挖掘

文本挖掘基于文本数据，关注从大型自然语言文本中提取相关信息，并搜寻有意义的关系、语法关系以及提取实体或各项之间的语义关联。它也被定义为自动或半自动的文本处理。相关的算法包括文本聚类、文本分类、自然语言处理和网络挖掘。

文本挖掘的特征之一是数字与文本混合，或者用其他的观点来说，就是源数据集中包含了混合数据类型。文本通常是非结构化文件的集合，这将被预处理并变换成数值或者结构化的表示。在变换之后，大部分的数据挖掘算法都可以应用，并具有不错的效果。

文本挖掘的过程描述如下：
第一步准备文本语料库，包括报告、信函等。

第二步基于文本语料库建立一个半结构化的文本数据库。

第三步建立一个词语文档矩阵，包含词语的频率。

第四步进行进一步的分析，比如文本分析、语义分析、信息检索和信息总结。

1.5.1　信息检索和文本挖掘

信息检索帮助用户查找信息，经常与在线文档相关联，它着重于信息的获取、组织、存储、检索和分布。信息检索（Information Retrieval，IR）的任务是根据查询检索有关的文档。信息检索的基本技术是测量相似性。其基本步骤如下所述：
指定一个查询。下面是一些查询类型：
关键词查询（keyword query）：由一个关键词列表表示，用来查找包含至少一个关键词的文档。

布尔查询（boolean query）：由布尔运算符和关键词构建的查询。

短语查询（phrase query）：由组成短语的一系列词语所构成的查询。

近邻查询（proximity query）：短语查询的降级版本，它可以是关键词和短
语的组合。

全文档查询（full document query）：一个完整文档的查询，用于寻找类似于查询文档的其他文档。

自然语言问题（natural language questions）：该查询有助于将用户的需求表示成一个自然语言问题。

搜索文档集。
返回相关文档的子集。

1.5.2　文本挖掘预测

预测文本的结果与预测数值数据挖掘一样耗力，并且有与数值分类相关联的相似问题。文本挖掘预测通常是一个分类问题。

文本预测需要先验知识，通过样本了解如何对新文档做出预测。一旦文本变换成数值数据，就可以应用预测方法。

weixin_34415923

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《R语言数据挖掘》----1.5　文本挖掘

本节书摘来自华章出版社《R语言数据挖掘》一书中的第1章，第1.5节，作者［哈萨克斯坦］贝特·麦克哈贝尔（Bater Makhabel），李洪成许金炜段力辉译，更多章节内容可以访问云栖社区“华章计算机”公众号查看。1.5　文本挖掘文本挖掘基于文本数据，关注从大型自然语言文本中提取相关信息，并搜寻有意义的关系、语法关系以及提取实体或各项之间的语义关...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。