文本挖掘和数据挖掘通常可以互换使用,以描述信息或数据的处理方式。这是事实,但只是在一般意义上。在这篇文章中(文本挖掘与数据挖掘),我们将看看文本挖掘和数据挖掘的不同重要方式。
文本挖掘与数据挖掘:哪个先来?
直到最近,企业数据领域的IT专家才专注于“数据挖掘”,我们可以将其定义为从结构化数据(结构化数据库或数据仓库中包含的数据)中发现知识。今天大多数可用的业务数据是非结构化信息;即使它也可能包含结构化字段中的数字,日期和事实,非结构化信息通常是文本(文章,网站文本,博客文章等)。非结构化信息的存在使得使用传统商业智能工具有效地执行知识管理活动变得更加困难。
包含文本或非结构化信息的知识源的发现称为“文本挖掘”。因此,数据挖掘和文本挖掘之间的主要区别在于文本挖掘数据是非结构化的。
数据挖掘与文本挖掘方法
正如数据挖掘不仅仅是一种从数据中发现知识的独特方法或单一技术一样,文本挖掘也包含各种方法和技术,例如:
基于关键字的技术:输入基于文本中选择的关键字,这些关键字被过滤为一系列字符串,而不是文字或“概念”。
统计技术:指基于机器学习。统计技术利用一组培训文档作为模型来管理和分类文本。
基于语言的技术:该方法可以利用语言处理系统。文本分析的输出允许浅浅地理解文本的结构,语法和逻辑。 (为了更好地理解这是如何工作的,这篇关于文本挖掘和NLP的文章很有帮助。)
所有这些方法都有一个共同的特点:它们都是以近似的方式处理文本,因为它们无法理解它们。
与这些技术不同,像Cogito这样的认知技术旨在通过猜测单词的含义来理解和分析文本,而是依靠深层语义分析和丰富的知识图来确保精确,完整和更多有效地理解作为一个人的文本。
有关NLP如何与文本挖掘不同的更多信息,请单击此处。