【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 03 编程部分 上篇

这篇博客是作者将纸质笔记转化为电子版的数据分析学习记录,重点介绍了正则表达式的使用,包括查找、替换和分割字符串的场景。文中提到了一些常用的正则符号,如括号、问号、星号等,并分享了练习题来加深理解。后续内容将涉及自定义函数和网络爬虫的实践。
摘要由CSDN通过智能技术生成

这部分跟的课是前段时间没有电脑使用平板及纸笔记得,所以主要的目的是为了将纸质笔记转为电子版,加上适当的练习,配合回顾,争取把数据分析知识基础过一遍,能够掌握最好。

第五章 正则表达式的使用

正则表达式是指专门用于描述或刻画字符串内在规律的表达式

使用场景:

查 - 无法通过切片将字符串的子串返回

替 - 借助replace方法无法完成非固定值或非固定位置值的替换

割 - 借助于split方法无法按照多种值实现字符串的分割

几个字符串函数

 可以看到我的笔记更针对于简便的指示,具体说明参考老师的讲义截图,如上:

常用的正则符号 

 还有其他的:

 纸质笔记上的对于同类型的归纳较为简洁,可以看得明显:

这里还有圆括号及问号星号等,这里就整理到这里,今天太晚了。 


小学生需要深夜补作业,难道,大学生就不需要吗?笔记接上。2020 03 07 14:13盖爪~

上面部分列举到英文状态下的中括号,为避免因为重复听课又或者仅放截图让读者误以为我是个懒汉!所以这里把纸质笔记po一下,除了当时速记为了便利,笔记较为简洁以外,还有放到一块便于记忆。

 其中,符号都是英文状态下的,可以再过滤一遍:

  •       ( )  - 提取括号内的内容
  •       ?    -次数匹配 前面一个字符 0或1 次
  •       +   -匹配前面一个字符 1或以上 次
  •       *    -匹配前一个字符 0或以上 次
  •      { }   -匹配前一个字符特定的次数或范围 {m} 匹配m次; {,n}至多n次;{m,}至多m次;{m,n}m~n次

练习八(Ex8)是将字符中所有天气状态取出来,主要的匹配语句为:

re.findall("tianqi:(.*?)",string)

其中 .*?  ?-非贪婪式搜索

Ex9.是在一串字符中取出所有含"o"的字母单词

关键匹配语句为:

re.findall("\w*o\w*",string2,flag2=re.I)

标点符号及字母数字

re.sub('[,。、a-zA-Z0-9()]',strings)

分割内容

split = re.split('[-\|\n]',string4)
splip_strip = [i.strip() for i in split]

 这部分就结束了,下部分是自定义函数的介绍和网络爬虫的实践。

初心不改!刻意练习,每日精进。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值