文本数据处理（1）通过正则对文本进行数据清洗——删除含有有数字信息的文本

最新推荐文章于 2024-04-08 19:10:17 发布

朴厚小哥

最新推荐文章于 2024-04-08 19:10:17 发布

阅读量1k

点赞数 1

文章标签：人工智能 python

本文链接：https://blog.csdn.net/qq_39115513/article/details/122466649

版权

在NLP工作中，为针对性的对有某些特征的文本数据进行模型训练，可以对文本数据进行一个数据清洗的预处理工作。

0.导入工具

import pandas as pd
import numpy as np
import re

1.打开文本数据集

df=pd.read_csv('.../文件名.csv')#读取文件信息

2.构建规则

d=re.compile('[\d]|[\u96f6\u4e00\u4e8c\u4e09\u56db\u4e94\u516d\u4e03\u516b\u4e5d\u5341\u767e\u5343\u4e07]')

3.将匹配到规则的文本信息删除

df = df.applymap(lambda x: x if d.search(str(x)) else np.nan)
df.dropna()

4.看一下结果

print (df)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

朴厚小哥

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

6. 正则表达式在文本处理中的应用——《跟老吕学Python·初级开发者》

Python老吕的博客

08-02

正则表达式提供了强大的文本搜索功能，适用于各种文本处理场景，包括简单的模式匹配、复杂的边界条件搜索，以及与其他文本处理操作的结合使用。这里，您将学习到如何运用Python进行更复杂的编程任务，掌握面向对象编程的精髓，以及如何使用Python标准库来扩展您的能力。处理复杂数据，如HTML、XML、JSON或具有嵌套结构的文本，通常需要识别和解析数据中的模式和结构。通过上述方法，可以显著提高正则表达式的处理速度和效率，特别是在需要处理大量数据或对性能有严格要求的应用中。

Python 机器学习基础之处理文本数据【处理文本数据/用字符串表示数据类型/将文本数据表示为词袋】的简单说明

最新发布

仙魁XAN

05-31

1107

Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言，可以应用于以下领域： Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。Python 机器学习是利用 Python 编程语言中的各种工具和库来实现机器学习算法和技术的过程。

参与评论您还未登录，请先登录后发表或查看评论

文本数据清洗

weixin_51117061的博客

11-24

6364

新闻文本数据中不仅包括了中文字符，还包括了数字、英文字符、标点等非常规字符，这些都是无意义，并且需要处理的数据，清洗的方法使用的是正则表达式。方法一：借助Unicode编码，16进制筛出中文字符匹配规则为：[\u4e00-\u9fa5]，\un匹配n，其中n是一个用四个十六进制数字表示的Unicode字符，而4e00-9fa5之间的Unicode编码表示的是20000多个中文字符。具体编码如下： #匹配[^\u4e00-\9fa5] def find_chinese(text): ...

Java使用正则表达式处理文本数据

Fantesy_fyy的博客

07-04

285

一、正则表达式的含义二、matches方法三、split方法

中文数据清洗

冰的博客

04-03

1429

打算采用re第三方库来实现，进行正则匹配，首先可以将目录的文字组成字典（目录转成数组List），然后在正文中进行匹配切割(循环遍历上面的数组，匹配正文，然后从冒号后面开始截取，直接截取到出现下一个冒号结束，第二级目录同理)，从而实现第一级和第二级目录的结构的恢复，第三级目录使用正则匹配（re库）匹配的形式为:‘.num.’,从该处进行截取，然后截取到下一个‘.num.’位置结束。在英文文本处理中，词干提取（Stemming）是将词语的词干或基本形式提取出来的过程，即去除单词的词缀，保留单词的核心部分。

数据清洗【一】中文文本预处理

sunshine77_的博客

04-14

1万+

一、文本数据准备使用已经有的语料库，按照Python读取文本内容的方法读取文本文件内容。此处为了一步步演示过程，所以先使用句子，最后再整合。二、去除指定无用的符号我们爬取到的文本有时候会有很多空格或者是其他一些无用的符号，如果保留这些符号，在分词的时候这些符号也会被分出来，就会导致分词的结果不是很好。这个时候我们就可以用replace()这个方法去掉所有你不想要的符号： 1. 去除空格 contents = ' 大家好，欢迎一起来学习文本的空格...

清华大学精品大数据之数据清洗课程PPT课件（48页）含习题第5章文本、web、数据库、增量数据抽取.pptx

05-18

课程通过PPT形式，详细讲解了数据清洗的重要环节——数据抽取，包括文本文件抽取、Web数据抽取、数据库数据抽取以及增量数据抽取等关键知识点。 **第五章数据抽取** 1. **文本文件抽取** - 文本文件抽取的核心是...

如何对文本数据进行预处理？——结合常用处理方法谈谈自己的思考

热门推荐

weixin_36711901的博客

03-12

1万+

常用的文本清洗与预处理步骤一般如下：一、去除数字：数字在文本分析中一般没有意义，所以在进一步分析前需要去除它们。【我觉得数字对于语义的理解还是有一定作用的，将所有数字（阿拉伯数字和单词）更换为一个标注<num>会不会更好？】二、去除链接地址：链接地址显然也需要在进一步分析前被去掉，可以使用正则表达式达到这个目的。三、去除停用词：停用词是在每个句子中都很常见，但对分析没有意义的词。比如...

搜狐新闻文本数据集.zip

07-11

《搜狐新闻文本数据集——深度理解与应用》在当今信息爆炸的时代，新闻文本数据集成为了自然语言处理（NLP）领域的重要资源。本篇将详细介绍“搜狐新闻文本数据集”，探讨其结构、特点以及如何利用它进行相关研究...

停用词-文本清洗

08-14

数据挖掘也是对文本信息的一个处理，首先就是去除大部分无用词，留下有用词

人工智能-项目实践-数据预处理-中英文语料数据清洗及分布式分句分词预处理工作

03-02

中英文语料数据清洗及分布式分句分词预处理工作代码包括：如何批量读取文件夹及子文件夹下的数据如何将批量整合文件夹及子文件下的数据匹配中英文里可能出现的所有特殊字符匹配各类网址及网页标签匹配希腊字母汉语拼音及繁体字等利用PyLTP模块进行分句去掉文本空行函数计时装饰器以及代码进度条添加分布式分词处理类文件欢迎star和fork

数据清洗

Be Young，Be Curious，Then You'll be Lucky!

04-28

1901

数据清洗我们拿到的数据通常并不那么完美，像这样一份“脏乱差”数据需要如何清洗呢？ excel下载地址：http://pan.baidu.com/s/1nvsMQJB在清洗之前，首先需要明确我们清洗的目标，例如图中的数据：老板的期望是——需要一份电话号码清单。那么，我们只需要保留“ID”、“姓名”、和“电话号码”就足够了。其中ID作为这个人的唯一标识符存在。让我们一起看看，这个数据涉及以下特点：

基于文本模板匹配的数据清洗

zhouguangfei0717的博客

06-01

1844

# encoding: utf-8 import argparse import os import sys import time import re from glob import glob import random import numpy as np from shutil import copy from scipy import misc import shutil import...

动手学数据分析2-数据清洗及特征处理

coldfish的博客

06-17

304

数据清洗 在把数据拿来做分析前，通常我们要做数据清洗，因为我们拿到的原始数据通常是不干净的，所谓的不干净，就是数据中有异常值，缺失值或存在不能直接使用的值等，需要经过一定的处理才能继续做分析或建模。所以拿到数据的第一步是进行数据清洗，对缺失值、重复值、字符串等做数据清理转换等操作，将数据清洗成可以分析或建模的样子。观察缺失值 import numpy as np import pandas as pd df = pd.read_csv("train.csv") # 通过info查看数据信息 df.info

有哪些方法可以对文本数据进行清洗呢

weixin_42600128的博客

02-18

1257

答: 对文本数据进行清洗的常用方法有：1. 重复标记清理；2. 去除特殊字符；3. 去除停用词；4. 去除非标准格式；5. 去除空格；6. 词形还原；7. 缩写简化；8. 同义词替换；9. 大小写标准化；10. 语法矫正等。 ...

如何批量去除word文本中的数字内容

YuStewart的博客

05-23

4974

批量去除word文本中的数字平时，咱会遇到一些word编辑中的令人头疼的小问题，比如如何快速删除一段文字中的全部数字，篇幅少的话可以手动删除没有问题，但是如果文字量较大，手动删除就很花时间了，比如下面有关于扬声器相关应用的这段文字，想快速删除其中的文字，可以这样操作： **1、**首先，全部选中这段文字，组合按下 Ctrl+H按键后打开【替换】窗口，在【查找内容】框中输入[0-9]，替换内容为空； **2、**然后点击【更多】，勾选【使用通配符】； **3、**最后点击【全部替换】即可，如下图：

NLP数据清洗：文本预处理

zly_Always_be的博客

04-08

963

NLP数据清洗：文本预处理。对文本清洗的方法进行总结。

web文本数据清洗流程及实例

Li_yi_chao的博客

08-15

6032

今天，超过80%的数据是非结构化的。文本数据预处理是数据分析前的必经之路。大多数可用的文本数据本质上是高度非结构化和嘈杂的，需要更好的见解或建立更好的算法来处理数据。我们知道，社交媒体数据是高度非结构化的，因其非正式的交流，存在包括拼写错误、语法不好、俚语的使用、诸如URL、停用词、表达式等不必要内容。一个典型的商业问题，假设你感兴趣的是：这是iPhone在粉丝中更受欢迎的特点。下面你已...

PySpark实战：文本多分类处理，利用Spark MLlib与Apache Spark性能

本文主要介绍了如何使用Python的大数据处理库PySpark来解决实际的文本多分类问题，特别关注的是Apache Spark在实时数据分析领域的强大能力。Spark Machine Learning Library (MLlib) 是PySpark的重要组成部分，它...