pandas 利用正则表达式从文本中提取数字

最新推荐文章于 2023-08-16 10:49:57 发布

彩云的笔记

最新推荐文章于 2023-08-16 10:49:57 发布

阅读量3.5k

点赞数

分类专栏： pandas

本文链接：https://blog.csdn.net/CAIYUNFREEDOM/article/details/102795664

版权

pandas 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

需要从text特征中提取形如 13.5/10 这样的字符串，再分别提取分子分母。
1）可以利用 str.extract() 方法。
2）利用正则表达式 \d+\.?\d*\/\d+ 进行匹配
3）再利用 .split() 方法提取分子分母

id lable
train/395017260.png 0
train/392533560.png 0
train/359114469.png 1
train/963384410.png 1
train/936296787.png 2
train/392300217.png 2
train/905688343.png 3
train/909982060.png 3
train/288740989.png 3
train/329893220.png 3
train/650779311.png 3
train/44827996.png 4

a = pd.read_csv('train_list.txt', sep = ' ', dtype={'id':str, 'lable':int})
a['id']=pd.to_numeric(a['id'].str.extract(r'(\d+)'))

>>> a
id lable
0 395017260 0
1 392533560 0
2 359114469 1
3 963384410 1
4 936296787 2
5 392300217 2
6 905688343 3
7 909982060 3
8 288740989 3
9 329893220 3
10 650779311 3
11 44827996 4

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

彩云的笔记

关注关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
pandas 利用正则表达式从文本中提取数字

需要从text特征中提取形如 13.5/10 这样的字符串，再分别提取分子分母。1）可以利用str.extract()方法。2）利用正则表达式\d+\.?\d*\/\d+进行匹配3）再利用.split()方法提取分子分母id labletrain/395017260.png 0train/392533560.png 0train/359114469.png 1t...
复制链接

扫一扫