初学文本挖掘记录

恬梦

于 2022-04-08 13:11:35 发布

阅读量232

点赞数

分类专栏：数据挖掘文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013972657/article/details/123983403

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、结构化数据、非结构化数据、半结构化数据

参考资料：https://www.zhihu.com/question/50986354

结构化数据：以关系型数据库表形式管理的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。比如：Excel、musql

非结构化数据：数据结构不规则或者不完整，没有预定义的数据模型，难以被计算机理解。通常所说的文件数据就是非结构化文件数据，比如：视频、音频、图片、图像、文档、文本

半结构化数据：介于如关系型数据库完全结构化数据和如文件的完全无结构的数据。它不是关系模型，但是是有基本固定结构模式的数据。例如日志文件、XML 文档、JSON 文档、Email 、html等。与结构化数据最大的区别在于，半结构化数据的模式结构和内容混在一起，没有明显的区分，也不需要预先定义数据的模式结构。

二、文本挖掘

参考资料：1、https://blog.csdn.net/jdbc/article/details/50408238

2、https://www.zhihu.com/question/19637218

2.1 文本挖掘概念

文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程，同时运用这些知识更好地组织信息以便将来参考。

文本挖掘与数据挖掘的关系：文本挖掘是从数据挖掘发展而来，因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比，文本挖掘有其独特之处，主要表现在:文档本身是半结构化或非结构化的，无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主，并利用关系表等存储结构来发现知识。因此，有些数据挖掘技术并不适用于文本挖掘，即使可用，也需要建立在对文本集预处理的基础之上。

下面是摘自参考链接对数据挖掘的通俗理解：

分析报告：整个事件发生结束以后的总结（描述性）

统计分析：能利用大量的历史样本来预测整个事件总体未来的走向（预测性概率）

数据挖掘：透过事件的表象发现隐藏在背后的蛛丝马迹，从而找到潜伏的规律以及看似无关事物之间背后的联系，用此来洞察未来（规范性）

2.2 文本挖掘过程

有些人把文本挖掘视为文本知识发现（KDD）的同义词，而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现由以下步骤组成：

1）文本预处理：选取任务相关的文本并将其转换成文本挖掘工具可以处理的中间形式。

2）文本挖掘：在完成文本预处理后，可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。

3）模式评估与表示为最后一个环节，是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求，就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进，然后再进行新一轮的发现。

2.3常用文本挖掘技术

文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

2.4 文本挖掘应用

1）基于内容的搜索引擎，代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎；

2）信息自动分类、自动摘要、信息过滤等文本级应用，如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类，计算所基于聚类粒度原理VSM的智多星中文文本分类器

3）信息自动抽取，即将Internet上大量的非结构化的信息，抽取出格式化的数据，以备进一步的搜索应用。目前是研究热点，至今还没有实用的系统；

4）自动问答、机器翻译等需要更多自然语言处理和理解的应用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初学文本挖掘记录

一、结构化数据、非结构化数据、半结构化数据参考资料：https://www.zhihu.com/question/50986354结构化数据：以关系型数据库表形式管理的数据。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性是相同的。比如：Excel、musql非结构化数据：数据结构不规则或者不完整，没有预定义的数据模型，难以被计算机理解。通常所说的文件数据就是非结构化文件数据，比如：视频、音频、图片、图像、文档、文本半结构化数据：介于如关系型数据库完全结构化数据和..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。