python正则表达式详解 pandas_python-根据正则表达式字典填充Pandas DataFrame列

最新推荐文章于 2023-04-23 10:55:04 发布

weixin_39616090

最新推荐文章于 2023-04-23 10:55:04 发布

阅读量346

点赞数

文章标签： python正则表达式详解 pandas

我有一个如下数据框：

GE GO

1 AD Weiss

2 KI Ruby

3 OH Port

4 ER Rose

5 KI Rose

6 JJ Weiss

7 OH 7UP

8 AD 7UP

9 OP Coke

10 JJ Stout

并且我正在尝试根据GO列的值添加一列.我当时正在考虑使用字典,但是在我的真实情况下,我需要使用正则表达式来识别部分匹配项.例如：

Dic={'Weiss|\wuby|Sto\w+':'Beer', 'Port|Rose':'Wine','\dUP|Coke':'Soda'}

这会给

GE GO OUT

1 AD Weiss Beer

2 KI Ruby Beer

3 OH Port Wine

4 ER Rose Wine

5 KI Rose Wine

6 JJ Weiss Beer

7 OH 7UP Soda

8 AD 7UP Soda

9 OP Coke Soda

10 JJ Stout Beer

lambda函数在这里可以工作吗？我将如何使其成为正则表达式？提前致谢！

解决方法:

您可以这样操作：

In [253]: df['OUT'] = df[['GO']].replace({'GO':Dic}, regex=True)

In [254]: df

Out[254]:

GE GO OUT

1 AD Weiss Beer

2 KI Ruby Beer

3 OH Port Wine

4 ER Rose Wine

5 KI Rose Wine

6 JJ Weiss Beer

7 OH 7UP Soda

8 AD 7UP Soda

9 OP Coke Soda

10 JJ Stout Beer

有趣的观察-在较早的Pandas版本中,与DataFrame.replace()和Series.str.replace()方法相比,Series.map()方法几乎总是更快.在Pandas 0.19.2中变得更好：

In [267]: df = pd.concat([df] * 10**4, ignore_index=True)

In [268]: %timeit df.GO.map(lambda x: next(Dic[k] for k in Dic if re.search(k, x)))

1 loop, best of 3: 1.57 s per loop

In [269]: %timeit df[['GO']].replace({'GO':Dic}, regex=True)

1 loop, best of 3: 895 ms per loop

In [270]: %timeit df.GO.replace(Dic, regex=True)

1 loop, best of 3: 876 ms per loop

In [271]: df.shape

Out[271]: (100000, 2)

标签：python,pandas,dataframe,dictionary

来源： https://codeday.me/bug/20191011/1889858.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39616090

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

两万文字详解Python正则表达式(语法、验证方法、使用案例、练习题、常见错误)

herosunly的博客

10-21

1万+

1. 正则表达式的定义和应用 2. 正则表达式验证网站 3. 语法 4. Python(re模块)案例 5. 正则表达式练习题 6. 常用正则表达式 7. 常见错误

pandas使用replace函数替换dataframe中的值:replace函数使用正则表达式对dataframe中的值进行替换

data+scenario+science+insight

10-24

3339

pandas使用replace函数替换dataframe中的值:replace函数使用正则表达式对dataframe中的值进行替换目录 pandas使用replace函数替换dataframe中的值:replace函数使用正则表达式对dataframe中的值进行替换 #replace函数的基本语法 #replace函数使用正则表达式对dataframe中的值进行替换 #replace函数的基本语法 #to_replace为需要被替换的值； #value为替换后的值； #如果..

参与评论您还未登录，请先登录后发表或查看评论

在Python中使用正则表达式的方法

12-23

正则表达式(regular expression)是一种用形式化语法描述的文本匹配模式。在需要处理大量文本处理的应用中有广泛的使用，我没使用的编辑器，IDE中的搜索常用正则表达式作为搜索模式。玩过*nix系统的都知道如sed，grep,awk这类的命令，他们是非常强大的文本处理工具。几乎所有的语言都有对正则表达式的支持，有的直接在语法中支持，有的使用扩展库的形式。python使用的就是扩展库re。 re.search(pattern,string,flag=0) 搜索文本中的匹配的模式是最常用的.以模式和文本作为输入，如果有匹配则返回一个Match对象，反之返回None。

pandas—字符串正则表达式

qq_45286306的博客

04-21

1595

字符串处理，使用正则表达式

python - 在 DataFrame 中使用正则表达式

热门推荐

PeersLee的博客

09-12

2万+

1. 正则表达式文档 Python正则表达式指南 Python爬虫入门七之正则表达式 2. example df[['室', '厅', '厨', '卫']] = df['户型'].str.extract('(\d+)室(\d+)厅(\d+)厨(\d+)卫', expand=False) df.head(3)

python正则表达式详解 pandas_【python】正则表达式的分组及在pandas中的实用操作...

weixin_30152861的博客

02-21

4194

正则表达式的分组及在pandas中的实用操作1. 正则表达式分组1.1 分组的模式1.2 分组的实际操作1.2.1 邮箱号码匹配1.2.2 标签信息匹配2. pandas中的应用操作2.1 导入库，读取文件数据，并输出指定的字段2.2 提取数据，创建新字段3. 小结之前的博客中已经讲解了相关的正则表达式的一些基础的内容，可见：正则1，正则2，正则3，正则4这里补充一下正则表达式分组的相关内容以及结...

python正则表达式详解 pandas_python – 使用正则表达式提取不同格式的日期并对它们进行排序 – pandas...

weixin_26899879的博客

02-21

652

我认为这是课程文本挖掘任务之一.那么你可以使用正则表达式和提取来获得解决方案.dates.txt即doc = []with open('dates.txt') as file:for line in file:doc.append(line)df = pd.Series(doc)def date_sorter():# Get the dates in the form of wordsone = ...

python 正则表达式 日期_基于Python正则表达式的正文日期识别算法

weixin_39572442的博客

12-14

346

根据我的上一篇博客：https://www.imooc.com/search/article?words=迷之语法我又写了一个简单应用来识别并提取一些文章或者通知的重要日期，目前调试结果还行，但是还存在一些漏洞，比如同时识别好几个日期，还没加条件来判断哪个更重要，阅者可以发现并根据需要来完善。完整代码：import reimport pandas as pdpattern1 = re.compil...

dataframe 正则过滤,pandas dataframe/series 正则表达式使用 str.match str.contains str.extract...

weixin_42128988的博客

03-18

1794

pandas dataframe/series 正则表达式使用 str.match str.contains str.extractpandas.Series.str.matchSeries.str.match(pat, case=True, flags=0, na=nan, as_indexer=False)[source]Deprecated: Find groups in each stri...

python-pandas dataframe正则筛选包含某字符串的列数据str.contains()

qq_35706314的博客

08-07

1万+

pandas dataframe正则筛选包含某字符串的列数据str.contains() 用法: Series.str.contains(pat, case=True, flags=0, na=nan, regex=True) 参数： pat: 字符序列或正则表达式。 case: 如果为True，则区分大小写。 flags: 要传递给re模块的标志，例如重新IGNORECASE。 na: 填写缺失值的值。 regex: 如果为True，则假定pat是一个正则表达式。模糊过滤： Bool =

python数据处理 dataframe用正则去除全部空格、换行符

weixin_43606023的博客

04-23

2923

python中给dataframe使用str.replace(' ', '').str.replace('/s', '').str.replace('/n', '')格式都没有去除全部空格。这可能是由于字符串中不仅包含空格字符，还包括制表符或其他空白字符。可以尝试使用正则表达式。将所有空格符替换为空字符串。

Python爬虫-正则表达式补充

T1st0r的博客

03-15

131

一.正则表达式 正则表达式（Regular Expression，简称Regex或RE）又称为正规表示法或常规表示法，常常用来检索、替换那些符合某个模式的文本，它首先设定好了一些特殊的字及字符组合，通过组合的“规则字符串”来对表达式进行过滤，从而获取或匹配我们想要的特定内容。它具有灵活、逻辑性和功能性非常的强，能迅速地通过表达式从字符串中找到所需信息的优点，但对于刚接触的人来说，比较晦涩难懂。 1.re模块 Python通过re模块提供对正则表达式的支持，使用正则表达式之前需要导入该库。 import re

Python利用正则表达条件性创建dataframe中新的features和column列

Keer_1111的博客

08-19

342

目标根据职位名称创建新的列，命名为教师，类别，包括幼儿，小学，初中，高中，其他。多项匹配利用正则表达。如果职位包含幼，幼儿则分类为幼儿代码如下： # Create column 类别 job["类别"] = "" list1 = '幼|幼儿' list2 = '初中' list3 = '高中' list4 = '小学' list5 = '实习生' regexp_list1 = ...

python dataframe 列应用正则表达式 筛选

dudu3332的博客

12-22

6532

假设有如下的 DataFrame：现在需要增加一列，名字为选择原因，内容为在经营范围中进行搜索，如果发现含有设备、汽车、网络中的任何一个词的，就在选择原因中写上这个搜索到的词，否则不填。我们可以对列调用 apply 方法，使用正则表达式来进行匹配，假设 DataFrame 名称为 df，代码如下： import re pattern = r'设备|汽车|网络' # 一行超人 df['选择原因'] = df['经营范围'].apply(lambda s: ''.join(set(re.fin

Python 正则表达式学习笔记

JokerJL的博客

02-17

692

Python 正则表达式学习笔记正则表达式正则表达式符号Python DataFrame 实例解读 正则表达式 给老师做RA，需要做文本匹配相关的研究，所以自学一下python的正则表达式，记录一下学习笔记。正则表达式是一个特殊的字符序列，它能方便的检查一个字符串是否与某种模式匹配。 正则表达式符号 Python DataFrame 实例解读此实例来自Cousera网站,密歇根大学的课程“Applied Text Mining in Python"的课程实例。 import pandas as pd

python 数据处理学习pandas之DataFrame(二)

贪玩小神的专栏

10-21

3324

本章对第一章进行了部分完善,后期继续对pandas使用进行完善 import pandas as pd 引用pandas时使用pd名称就可使用DataFrame查看数据: from pandas import DataFrame #从pandas库中引用DataFrame df_obj = DataFrame() #创建DataFrame对象 df_obj.dtypes #查看各

pandas loc 正则匹配_数据分析Pandas

weixin_39636176的博客

11-22

543

incipe读完需要27分钟速读仅需 9 分钟什么是 pandaspandas 是基于一种 NumPy 的一种工具。NumPy 只能处理数值型的数据，但是 pandas 除了处理数值之外，还可以处理其它类型的数据。比如，字符串，时间序列等。使用Ⅰ. 数据结构维数名称描述1Series带标签的一维同构数组2DataFrame带标签的，大小可变的，二维异构表格一维 Series创建impor...

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)

data+scenario+science+insight

03-24

6272

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate new column)

pandas正则表达式，提取汉字、字母、数字、罗马数字

weixin_46276803的博客

03-09

1万+

仅提取汉字 str_stationname = re.findall('[\u4e00-\u9fa5]+',str) 提取英文字母和数字，要匹配什么，在后面加上就行 '[\a-zA-Z0-9ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ]+' 附：https://www.cnblogs.com/BluceLee/p/11419302.html 史上最全的正则表达式-匹配中英文、字母和数字在做项目的过程中，使用正则表达...

正则表达式pandas