第1关：字符串操作方法头歌

GIRatiNa 487

于 2024-03-22 09:32:20 发布

阅读量1.1k

点赞数 24

文章标签： pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74103046/article/details/136929291

版权

先直接放源码
import pandas as pd

pd.set_option('display.max_rows', None)

def demo():

#********** Begin **********#

data = pd.read_csv("./step1/bournemouth_venues.csv")

data1 = data["Venue Name"]

data2= "" + data1.str.split().str.get(-1)

data3 = data2.str.replace("P.*","")

data3.drop(data3[data3.values==""].index,inplace = False)

data4 = data3.str.contains("[a-zA-Z]+")

data3.drop(data4[data4==False].index,inplace=True)

pd.set_option('display.max_rows', None)

print(data3.head(30).to_string(header=False, dtype=False))

print(" ... ")

print(data3.tail(30).to_string(header=False, dtype=False))

print("Name: Venue Name, Length: 90, dtype: object",end="")

return "";

# ********** End **********#
相关知识
- 字符串方法
- 正则表达式方法
编程要求
测试说明

任务描述

本关任务：读取step1/bournemouth_venues.csv文件，获取Venue Name列，通过向量化字符串操作得到清洗后的数据。

相关知识

为了完成本关任务，你需要掌握：1.pandas字符串方法；2. 基本正则表达式。

字符串方法

如果你对Python字符串方法十分了解，那么下面的知识对你来说如瓮中捉鳖，几乎所有的Python内置的字符串方法都被复制到Pandas的向量化字符串方法中。

下面列举为Pandas字符串方法借鉴Python字符串方法的内容：

它们的作用与Python字符串的基本一致，但是需要注意这些方法的返回值不同。举两个例子：

样例1：

monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam', 'Eric Idle', 'Terry Jones', 'Michael Palin'])
monte.str.lower() # 返回字符串

输出：

0 graham chapman
1 john cleese
2 terry gilliam
3 eric idle
4 terry jones
5 michael palin
dtype: object

样例2：

monte.str.split() # 返回列表

输出：

0 [Graham, Chapman]
1 [John, Cleese]
2 [Terry, Gilliam]
3 [Eric, Idle]
4 [Terry, Jones]
5 [Michael, Palin]
dtype: object

pandas中还有一些自带的字符串方法，如下图所示：

其中get_dummies()方法有点难以理解，给大家举个例子：假设有一个包含了某种编码信息的数据集，如 A= 出生在美国、B= 出生在英国、C= 喜欢奶酪、D= 喜欢午餐肉：

full_monte = pd.DataFrame({
'name': monte,
'info': ['B|C|D', 'B|D', 'A|C', 'B|D', 'B|C', 'B|C|D']})
print(full_monte)

输出：

info name
0 B|C|D Graham Chapman
1 B|D John Cleese
2 A|C Terry Gilliam
3 B|D Eric Idle
4 B|C Terry Jones
5 B|C|D Michael Palin

get_dummies()方法可以让你快速将这些指标变量分割成一个独热编码的DataFrame（每个元素都是0或1）：

full_monte['info'].str.get_dummies('|')

输出：

A B C D
0 0 1 1 1
1 0 1 0 1
2 1 0 1 0
3 0 1 0 1
4 0 1 1 0
5 0 1 1 1

正则表达式方法

还有一些支持正则表达式的方法可以用来处理每个字符串元素。如下图所示：

众所周知，正则表达式“无所不能”，我们可以利用正则实现一些独特的操作，例如提取每个人的first name：

monte.str.ext\fract('([A-Za-z]+)')

输出：

0 Graham
1 John
2 Terry
3 Eric
4 Terry
5 Michael
dtype: object

或者找出所有开头和结尾都是辅音字符的名字：

monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

输出：

0 [Graham Chapman]
1 []
2 [Terry Gilliam]
3 []
4 [Terry Jones]
5 [Michael Palin]
dtype: object

如果你想深入了解这些方法的作用，请参考Pandas官方文档

编程要求

本关的编程任务是补全右侧上部代码编辑区内的相应代码，要求实现如下功能：

读取step1/bournemouth_venues.csv文件，文件说明如下：

列名	说明
Venue Name	场地名
Venue Category	场地类别
Venue Latitude	场地经度
Venue Longitude	场地纬度

以空格切分每个场地名并获取每个切分后列表的最后一个元素作为一个Series；
将所有单词为P开头的值替换为空，并删除所有为空的行；
找出所有值不含字母的行并删除；
返回清洗后的结果；
具体要求请参见后续测试样例。

请先仔细阅读右侧上部代码编辑区内给出的代码框架，再开始你的编程工作！

测试说明

平台会对你编写的代码进行测试，对比你输出的数值与实际正确的数值，只有所有数据全部计算正确才能进入下一关。

测试输入：

无测试输入

预期输出：

关注

24
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

GIRatiNa 487 CSDN认证博客专家 CSDN认证企业博客

码龄2年

6: 原创

65万+: 周排名

25万+: 总排名

4473: 访问

: 等级

103: 积分

14: 粉丝

29: 获赞

2: 评论

26: 收藏

私信

关注

热门文章

最新评论

第1关：字符串操作方法头歌
CSDN-Ada助手: 恭喜你写了第6篇博客！标题取得很有趣，让人忍不住想要点击进去阅读。希望你能继续保持创作的热情和努力，不断提升自己的写作技巧。下一步建议可以尝试探索一些新的主题或者加入一些个人见解，让读者更能深入了解你的想法。加油！期待你更多精彩的作品！
C途漫漫【一】怎么入门c语言？
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/613248030。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。