Python文本处理——从文本中提取数据
在数据分析和机器学习中,从文本中提取数据是一个十分重要的步骤。在Python中,我们可以使用各种工具和库来实现这一目标。这篇文章将介绍一些Python中用于从文本中提取数据的常用技术。
正则表达式
正则表达式是一种强大的搜索和匹配模式的工具。Python中的re模块提供了正则表达式支持。使用正则表达式,可以在文本中查找和提取特定模式的数据。以下是一些在Python中使用正则表达式提取数据的示例:
查找电话号码
import re
text = "My phone number is 555-1212."
phone_pattern = re.compile(r'\d{3}-\d{4}')
match = phone_pattern.search(text)
if match:
print("Phone number found:", match.group())
else:
print(