python语言适合哪些领域的计算问题数据处理和文本挖掘_对比平台--Text Mining文本挖掘 Vs Natural Language Processing 自然语言处理...-CSDN博客

文本挖掘与自然语言处理之间的区别

术语“ 文本挖掘”用于自动机器学习和为此目的使用的统计方法。它用于从非结构化和结构化文本中提取高质量信息。可以在文本或匹配结构中对信息进行模式化，但不考虑文本中的语义。自然语言是我们用于交流的语言。处理此类数据以理解基本含义的技术统称为自然语言处理（NLP）。数据可能是语音，文本甚至是图像，并且方法涉及在数据上应用机器学习（ML）技术来构建涉及分类，提取结构，汇总和翻译数据的应用程序.NLP试图处理人类语言的所有复杂性，例如语法和语义结构，情感分析等

文本挖掘与自然语言处理之间的主要区别

以下是文本挖掘和自然语言处理之间的区别：

应用 – NLP的概念在以下基本系统中使用：

语音识别系统

问答系统

从一种特定语言到另一种特定语言的翻译

文字摘要

情绪分析

基于模板的聊天机器人

文字分类

主题细分

高级应用程序包括：

理解自然语言命令并以自然语言与人类互动的人类机器人。

构建通用机器翻译系统是NLP领域的长期目标

它为给定的文档生成逻辑标题。

为特定主题或给定图像生成有意义的文本。

先进的聊天机器人，可为人类生成个性化文本并忽略人类书写中的错误

文本挖掘的流行应用：

内容相关广告

内容丰富

社交媒体数据分析

垃圾邮件过滤

通过索赔调查发现欺诈

开发生命周期 –

对于开发NLP系统，一般的开发过程将包括以下步骤

了解问题陈述。

确定解决问题所需的数据或语料库类型。数据收集是解决问题的基本活动。

分析收集的语料库。语料的质和量是多少？根据数据和问题陈述的质量，您需要进行预处理。

一旦完成预处理，就从特征工程过程开始。功能工程是NLP和与数据科学相关的应用程序中最重要的方面。为此使用了诸如解析，语义树之类的不同技术。

确定了从原始预处理数据中提取的特征后，您将决定使用哪种计算技术来解决问题陈述，例如，您要应用机器学习技术还是基于规则的技术？对于现代NLP系统，几乎所有时间都在使用基于深度神经网络的高级ML模型。

现在，根据要使用的技术，您应该阅读要提供的功能文件，作为决策算法的输入。

运行模型，对其进行测试并进行微调。

重复上述步骤以获得所需的精度

对于文本挖掘应用程序，诸如定义问题之类的基本步骤与NLP中的相同。但是也有一些不同的方面，下面列出

在大多数情况下，文本挖掘会像NLP一样分析文本，不需要参考语料库。在数据收集部分，外部语料库的需求非常少。

文本挖掘和自然语言处理的基本功能工程。诸如n-gram，TF – IDF，余弦相似度，Levenshtein距离，特征哈希等技术在文本挖掘中最为流行。使用深度学习的NLP依赖于称为自动编码器的专门神经网络来获得文本的高级抽象。

文本挖掘中使用的模型可以是基于规则的统计模型，也可以是相对简单的ML模型

正如我们前面提到的，这里显然可以测量系统精度，因此在文本挖掘中，模型的运行，测试，Finetune迭代相对容易。

与NLP系统不同，“文本挖掘”系统中将有一个表示层，用于显示挖掘结果。这更多的是艺术而不是工程。

未来的工作 –随着Internet使用的增加，文本挖掘变得越来越重要。Web挖掘和生物信息学等新的专业领域正在兴起。到目前为止，大多数数据挖掘工作都在于数据清理和数据准备工作，这些工作效率较低。正在进行积极的研究以使用机器学习使这些工作自动化。

NLP每天都在进步，但是自然的人类语言很难用机器解决。我们很容易表达笑话，讽刺和每一种情感，每个人都能理解。我们正在尝试使用深度神经网络集成来解决该问题。当前，许多NLP研究人员正在致力于使用无监督模型进行自动机器翻译。自然语言理解（NLU）现在是另一个有趣的领域，它对聊天机器人和人类可以理解的机器人产生了巨大影响。

比较基础文字挖掘自然语言处理

目标

文字挖掘：从非结构化和结构化文本中提取高质量信息。可以在文本或匹配结构中对信息进行模式化，但不考虑文本中的语义。自然语言处理：试图了解人类以自然语言传达的内容-可能是文字或语音。分析了语义和语法结构。

工具类

文字挖掘：

文本处理语言（如Perl）

统计模型

ML模型

自然语言处理：

进阶机器学习模型

深度神经网络

Python中的NLTK等工具包