基于R语言的文本挖掘技术

最新推荐文章于 2024-07-10 16:47:28 发布

幸运六叶草

最新推荐文章于 2024-07-10 16:47:28 发布

阅读量5.3k

点赞数 5

分类专栏： R

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anneqiqi/article/details/51549481

版权

本文介绍了基于R语言的文本挖掘技术，涵盖文本挖掘的基本概念、定义、任务、主要用途和与数据挖掘的区别。文本挖掘任务包括短语提取、概念提取和可视化显示，常用方法有文本预处理、向量化表示、模式评估等。此外，文章提到了文本分类的关键技术和步骤，以及常见的分类算法。

摘要由CSDN通过智能技术生成

文本挖掘 2

绪论

目前我们可以获取的大部分信息是以文本的形式存储在文本数据库中的，由来自各种数据源的大量文档组成，如新闻文档、研究论文、书籍、数字图书馆和web页面。由于电子形式的文本信息飞速增长，文本挖掘已经成为信息领域的研究热点。

要分析文本内容，最常见的分析方法是提取文本中的词语，并统计频率。频率能反映词语在文本中的重要性，一般越重要的词语，在文本中出现的次数就会越多。词语提取后，还可以做成词云，让词语的频率属性可视化，更加直观清晰。

文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用；例如，客户关系管理，自动邮件回复，垃圾邮件过滤，自动简历评审，搜索引擎等等。

1.文本挖掘的基本概念

1.1文本挖掘的介绍

文本挖掘一词出现于1998年第十届欧洲机器学习会议上。Kodratoff认为文本挖掘的目的是从文本集合中，试图在一定的理解水平上尽可能多地提取知识。

文本挖掘是一个从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。

文本数据包括：技术报告、文本集、新闻、电子邮件、网页、用户手册等。

1.2文本挖掘的定义

文本挖掘（TextMining）是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下：

文本挖掘是指从大量的文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些只是更好的组织信息以便将来参考。

文本特征指的是关于文本的元数据：

（1）描述性特征，例如文本的名称、日期、大小、类型等；<

最低0.47元/天解锁文章

幸运六叶草

关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。