文本特征提取_练手扎实基本功必备：非结构文本特征提取方法-CSDN博客

本文链接：https://blog.csdn.net/weixin_39895096/article/details/111576041

作者 | Dipanjan (DJ) Sarkar

编译 | ronghuaiyang

来源 | AI公园(ID:AI_Paradise)

【导读】本文介绍了一些传统但是被验证是非常有用的，现在都还在用的策略，用来对非结构化的文本数据提取特征。

介绍

在本文中，我们将研究如何处理文本数据，这无疑是最丰富的非结构化数据来源之一。文本数据通常由文档组成，文档可以表示单词、句子甚至是文本的段落。文本数据固有的非结构化(没有格式整齐的数据列)和嘈杂的特性使得机器学习方法更难直接处理原始文本数据。因此，在本文中，我们将采用动手实践的方法，探索从文本数据中提取有意义的特征的一些最流行和有效的策略。这些特征可以很容易地用于构建机器学习或深度学习模型。

动机

特征工程通常被称为创建性能更好的机器学习模型的秘密武器。只要有一个出色的特征就可能是你赢得Kaggle挑战的门票！特征工程的重要性对于非结构化的文本数据更为重要，因为我们需要将自由流动的文本转换成一些数字表示形式，然后机器学习算法就可以理解这些数字表示形式。即使出现了自动化的特征工程，在将不同的特征工程策略应用为黑盒模型之前，你仍然需要理解它们背后的核心概念。永远记住，“如果给你一盒工具来修理房子，你应该知道什么时候使用电钻，什么时候使用锤子！”

理解文本数据

我相信你们所有人都对这个场景中包含的文本数据有一个合理的概念。请记住，文本数据总是可以以结构化数据属性的形式存在，但通常这属于结构化分类数据的范畴。

在这个场景中，我们讨论的是单词、短语、句子和整个文档形式的自由流动文本。本质上，我们有一些句法结构，比如单词组成短语，短语组成句子，句子又组成段落。然而，文本文档没有固有的结构，因为可以有各种各样的单词，这些单词在不同的文档中会有所不同，而且与结构化数据集中固定数量的数据维度相比，每个句子的长度也是可变的。

特征工程策略

让我们看看一些流行的和有效的策略来处理文本数据，并从中提取有意义的特征，这些特征可以用于下游的机器学习系统。请注意，你可以在https://github.com/dipanjanS/practical-machine-learning-with-python中访问本文中使用的所有代码，以供将来参考。我们将从加载一些基本的依赖项和设置开始。

 import pandas as pd import numpy as np import re import nltk import matplotlib.pyplot as plt pd.options.display.max_colwidth = 200 %matplotlib inline

现在，让我们以一个示例文档语料库为例，我们将在该语料库上运行本文中的大部分分析。corpus是具有一个或多个主题的文本文档集合。

 corpus = ['The sky is blue and beautiful.', 'Love this blue and beautiful sky!', 'The quick brown fox jumps over the lazy dog.', "A king's breakfast has sausages, ham, bacon, eggs, toast and beans