这部分跟的课是前段时间没有电脑使用平板及纸笔记得,所以主要的目的是为了将纸质笔记转为电子版,加上适当的练习,配合回顾,争取把数据分析知识基础过一遍,能够掌握最好。
第五章 正则表达式的使用
正则表达式是指专门用于描述或刻画字符串内在规律的表达式
使用场景:
查 - 无法通过切片将字符串的子串返回
替 - 借助replace方法无法完成非固定值或非固定位置值的替换
割 - 借助于split方法无法按照多种值实现字符串的分割
几个字符串函数
①
②
③
可以看到我的笔记更针对于简便的指示,具体说明参考老师的讲义截图,如上:
常用的正则符号
还有其他的:
纸质笔记上的对于同类型的归纳较为简洁,可以看得明显:
这里还有圆括号及问号星号等,这里就整理到这里,今天太晚了。
小学生需要深夜补作业,难道,大学生就不需要吗?笔记接上。2020 03 07 14:13盖爪~
上面部分列举到英文状态下的中括号,为避免因为重复听课又或者仅放截图让读者误以为我是个懒汉!所以这里把纸质笔记po一下,除了当时速记为了便利,笔记较为简洁以外,还有放到一块便于记忆。
其中,符号都是英文状态下的,可以再过滤一遍:
- ( ) - 提取括号内的内容
- ? -次数匹配 前面一个字符 0或1 次
- + -匹配前面一个字符 1或以上 次
- * -匹配前一个字符 0或以上 次
- { } -匹配前一个字符特定的次数或范围 {m} 匹配m次; {,n}至多n次;{m,}至多m次;{m,n}m~n次
练习八(Ex8)是将字符中所有天气状态取出来,主要的匹配语句为:
re.findall("tianqi:(.*?)",string)
其中 .*? ?-非贪婪式搜索
Ex9.是在一串字符中取出所有含"o"的字母单词
关键匹配语句为:
re.findall("\w*o\w*",string2,flag2=re.I)
标点符号及字母数字
re.sub('[,。、a-zA-Z0-9()]',strings)
分割内容
split = re.split('[-\|\n]',string4)
splip_strip = [i.strip() for i in split]
这部分就结束了,下部分是自定义函数的介绍和网络爬虫的实践。
初心不改!刻意练习,每日精进。