初学文本挖掘记录

一、结构化数据、非结构化数据、半结构化数据

参考资料:https://www.zhihu.com/question/50986354

结构化数据:以关系型数据库表形式管理的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。比如:Excel、musql

非结构化数据:数据结构不规则或者不完整,没有预定义的数据模型,难以被计算机理解。通常所说的文件数据就是非结构化文件数据,比如:视频、音频、图片、图像、文档、文本

半结构化数据:介于如关系型数据库完全结构化数据和如文件的完全无结构的数据。它不是关系模型,但是是有基本固定结构模式的数据。例如日志文件、XML 文档、JSON 文档、Email 、html等。与结构化数据最大的区别在于,半结构化数据的模式结构和内容混在一起,没有明显的区分,也不需要预先定义数据的模式结构。

二、文本挖掘

参考资料:1、https://blog.csdn.net/jdbc/article/details/50408238

                  2、https://www.zhihu.com/question/19637218

2.1 文本挖掘概念

        文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:

        文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。

        文本挖掘与数据挖掘的关系:文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

下面是摘自参考链接对数据挖掘的通俗理解:

        分析报告:整个事件发生结束以后的总结(描述性)

        统计分析:能利用大量的历史样本来预测整个事件总体未来的走向(预测性概率)

        数据挖掘:透过事件的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察未来(规范性)

2.2 文本挖掘过程     

        有些人把文本挖掘视为文本知识发现(KDD)的同义词,而另一些人只是把文本挖掘视为文本知识发现过程的一个基本步骤。文本知识发现由以下步骤组成:

1)文本预处理:选取任务相关的文本并将其转换成文本挖掘工具可以处理的中间形式。

2)文本挖掘:在完成文本预处理后,可以利用机器学习、数据挖掘以及模式识别等方法提取面向特定应用目标的知识或模式。

3)模式评估与表示为最后一个环节,是利用已经定义好的评估指标对获取的知识或模式进行评价。如果评价结果符合要求,就存储该模式以备用户使用;否则返回到前面的某个环节重新调整和改进,然后再进行新一轮的发现。

2.3常用文本挖掘技术

        文本转换为向量形式并经特征选择以后,便可以进行挖掘分析了。常用的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

2.4 文本挖掘应用

        1)基于内容的搜索引擎,代表性的系统有北京大学天网、计算所的“天罗”、百度、慧聪等公司的搜索引擎; 

        2)信息自动分类、自动摘要、信息过滤等文本级应用,如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类,计算所基于聚类粒度原理VSM的智多星中文文本分类器

        3)信息自动抽取,即将Internet上大量的非结构化的信息,抽取出格式化的数据,以备进一步的搜索应用。目前是研究热点,至今还没有实用的系统; 

        4)自动问答、机器翻译等需要更多自然语言处理和理解的应用。

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值