python删除标点_python – 使用pandas快速删除标点符号

最新推荐文章于 2023-12-28 13:44:55 发布

weixin_39785400

最新推荐文章于 2023-12-28 13:44:55 发布

阅读量3.1k

点赞数 1

文章标签： python删除标点

本文链接：https://blog.csdn.net/weixin_39785400/article/details/111493950

版权

这篇博客介绍了如何在Python中使用pandas和正则表达式高效地从文本中删除标点符号。通过比较str.replace、regex.sub和str.translate三种方法，展示了str.translate在性能上的优势。文章提供了具体的代码示例和性能基准测试，以帮助选择适合特定需求的解决方案。

摘要由CSDN通过智能技术生成

建立

出于演示的目的,让我们考虑一下这个DataFrame.

df = pd.DataFrame({'text':['a..b?!??', '%hgh&12','abc123!!!', '$$$1234']})

text

0 a..b?!??

1 %hgh&12

2 abc123!!!

3 $$$1234

下面,我逐一列出替代方案,以提高性能

str.replace

包含此选项可将默认方法建立为比较其他更高性能解决方案的基准.

这使用pandas内置的str.replace函数,它执行基于正则表达式的替换.

df['text'] = df['text'].str.replace(r'[^\w\s]+', '')

text

0 ab

1 hgh12

2 abc123

3 1234

这很容易编码,并且可读性很强,但速度很慢.

regex.sub

这涉及使用re库中的sub函数.为性能预编译正则表达式模式,并在列表解析中调用regex.sub.如果你可以节省一些内存,事先将df [‘text’]转换为一个列表,你将获得一个很好的性能提升.

import re

p = re.compile(r'[^\w\s]+')

df['text'] = [p.sub('', x) for x in df['text'].tolist()]

text

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39785400

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python地图标点_python绘图 | 空间地图上散点气泡绘制

weixin_42501331的博客

01-12

1357

今天的推文教程使用geopandas进行空间图表的绘制(geopandas空间绘图很方便，省去了很多的数据处理过程，而且也完美衔接matplotlib,学习python 空间绘图的小伙伴可以看下啊)，具体为空间气泡图的绘制，主要涉及的内容如下：geopandas geojson数据格式读取并可视化展示单独添加散点大小图例图层adjustText 库解决文本重叠问题geopandas geojso...

pandas中去除指定字符的实例

12-23

例表：假如想要去掉表中的‘#’，‘；’而且以‘#’和‘；’为分割线切割数据： #将dfxA_2的每一个分隔符之间的数据提出来 col1=dfxA_2['travel_seq'].str.split('#').str[0] col2=dfxA_2['travel_seq'].str.split('#').str[1] col3=dfxA_2['travel_seq'].str.split('#').str[2].str.split(';').str[0] 这里只是部分代码，实际情况按需求可以灵活变化。 #建立表 DF1=pd.DataFrame({'link_id1':col1,'ti

参与评论您还未登录，请先登录后发表或查看评论

pandas去除列名中的特殊符号

katyusha1的博客

08-08

2万+

去除pandas列名中的单双引号，空格前段时间，公司推送的csv文件，列名中出现了单双引号，甚至是空格，这对pandas导入数据库来说，引起了很大的不便，后来发现，把列名中出现的单双引号和空格去掉其实很简答，一行代码就可以搞定。 df = df.rename(columns=lambda x: x.replace("'","").replace('"','')).replace(" ",""...

pandas处理文本特征之特殊字符剔除

goodgoodstudyddp的博客

01-07

8684

假设我们有DataFrame数据data,feature_1列为文本数据列，且其中含有特殊字符。首先我们认识两个正则表达式： \w: 用来匹配字母、数字、下划线字符； \W: 用来匹配所有与\w不匹配的字符。可以发现，我们所说的特殊字符就在\W的范围内。 import re def clear_characters(text): return re.sub('\W', '', text) data[feature_1] = data[feature_1].apply(clear_characters)

Pandas中如何去掉空格

weixin_44665327的博客

10-02

3万+

Pandas中如何去掉空格一、先创建一张数据表二、去空格操作1、按位置去空格一、先创建一张数据表 import pandas as pd a = pd.DataFrame([['1qw',' 2e rt ','3uio'],['6qw ','7ert',' 8u io']],columns=list('ABC')) print(a) 表格生成如下：从表格中只能看到字符串中间的空格，两侧的空格无法判断是否存在，因此我们可以用代码 print(a.values )来查看单元格中具

python地图标点_Python地理数据可视化工具GeoPandas

weixin_39639643的博客

12-18

550

GeoPandas简介GeoPandas是一个开源项目，它的目的是使得在Python下更方便的处理地理空间数据。GeoPandas扩展了pandas的数据类型，允许其在几何类型上进行空间操作。几何操作由shapely执行。GeoPandas进一步依赖于fiona进行文件存取和descartes，matplotlib进行绘图。GeoPandas沿用了pandas的数据类型，所以GeoPandas中也...

python.zip_fenci _python文本处理_数据预处理_文本python_文本预处理

07-15

"数据预处理.py"可能是整个预处理流程的集合，可能包括了上述的分词和去停用词步骤，也可能涉及其他处理，如标准化（如转换为小写）、标点符号去除、词干提取等。 "词向量训练.py"同样与词向量模型相关，可能使用了...

python替换所有标点符号 正则_一行Python代码过滤标点符号等特殊字符

weixin_39722692的博客

11-26

924

python 字符串过滤英文标点符号例如 s = """ this is a example, and i want to miss punctuation. ..python中用正则表达式去掉文本中所有的标点符号目前的做法是： line=re.sub(r'[{}]+'.format(punctuation),'',line) 但小编的理解是 python’s的“ ’ ”也是字符，和标点符号一样...

python实现删除txt里面的特殊符号：如[]

02-21

本代码是用python实现的删除txt文件里面的[],可以批量处理多个txt文件，觉得好的小伙伴们，点个赞奥

Pandas去掉数字千分位的逗号的三种方法

weixin_41884148的博客

03-03

1万+

问题描述：在日常的数据清洗过程中，我们频繁去处理一些数字，比如说日志，或者说自动生成的报表，这些地方总有着千分位的逗号，这对于数据的后续运算和入库都有着不小的影响，这边将采用三种方法教大家超便捷的处理千分位逗号的问题数据准备 import pandas as pd a = [[['22,900', '7,100'], ['3,400', '-0.03'], [ '5', '...

使用pandas处理数据的一些总结

Gzigithub的博客

12-28

867

NULL DEFINED AS ''将空字符串视为NULL值，'serialization.null.format'=''则用于指定NULL值在数据文件中的表示方式。通过这种方式，我们可以同时使用NULL DEFINED AS ''和serialization.null.format=''来将NULL值和空字符串表示在Hive中的一致性。5、当csv文件入hive时，遇到空值需要在hive中显示为null值。也可以修改已存在的表，如下。

导出csv格式，一个单元格内容包含“逗号”，“双引号”问题

凉凉思语的博客

06-17

6260

按照如下处理步骤可实现： csv格式如果有逗号，将这个字段整体用双引号括起来；如果里面还有双引号就替换成两个双引号，这样导出来的格式就不会有问题了错误：内容是：根据角色id更新权限，角色名称为XXX，导出显示如下要想正常显示对字符串替换，根据规则转换为 “根据角色id更新权限，角色名称为XXX” 后就能在一个单元格中正常显示解决办法： /** * 方法名称: csvHandlerStr</br> * 方法描述: 处理包含逗号，或者双引号的字段</b..

使用dataframe去掉一列中的所有逗号

weixin_42588672的博客

12-28

691

可以使用 pandas 库中的 DataFrame.replace() 方法来实现。例如，假设你有一个名为 df 的 DataFrame，其中有一列名为 'column_name'，你想将这一列中的所有逗号替换为空字符串，你可以这样做： import pandas as pd df['column_name'] = df['column_name'].replace(',', '', rege...

Python,pandas遍历csv文件,删除中文字符，特殊字符，将中文符号转换为英文符号

瓜皮吃瓜不吐瓜皮

05-28

1万+

目录文章目录目录Pandas：Python Data Analysis LibraryPandas-read_csv()read_csv()遇到的问题Pandas-loc中文字符，特殊字符的去除 Pandas：Python Data Analysis Library 为了解决数据分析任务创建数据结果： ***Series:***一维数组：与Numpy中的一维array类似。二者与Pyth...

pandas中去除指定字符