![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据提取与清洗
Dcy_ASK
预测未来最好的方式是创造
展开
-
提取csdn学员首页的课程栏目
需求背景:提取CSDN学院首页左侧的课程栏目先声明一点:提取的CSDN学员首页是一个html对象,并且是下载到本地的静态html页面如下为提取的代码实现整个过程,import lxml.etree as le # 在python中如果需要运用xpath,那么就要调用python中的lxml中的etree模块### 要思考一件事,你当前处理的问题在哪个领域范围内的,先定位到所需知识领域,再定位需要解决的问题,在此基本上考虑需要调用哪到的模块## 读取本地保存的一个静态html,读取的路径,以原创 2020-11-19 15:16:34 · 269 阅读 · 0 评论 -
提取微课商城的课程种类和课程名称
项目需求:需要提取到微课商城里面所有的课程种类和课程名称,如下图所示:拿到一个需求后,先别着急上手直接写代码,先思考背后的逻辑:该微课商城的网页结构是什么,组成部分有哪些该微课商城的网页结构层次关系实现该需求使用到的函数会涉及到哪些,比如re模块的, findall提取实现该需求的先后步骤是什么接下来再代码中去实现上述需求:## 本次目标是分析商城的分类结构,提取到课程名称和种类import rewith open('static/html/index.html','r',encod原创 2020-11-18 22:49:08 · 386 阅读 · 0 评论 -
AttributeError: partially initialized module ‘re‘ has no attribute ‘findall‘
import rewith open('index.html', 'r', encoding='utf-8')as f: html = f.read() print(html) pattern_1 = '<div class="email">(.*?)</div>' ret_1 = re.findall(pattern_1,html) print(ret_1)pyCharm中敲入上述代码,运行后的错误提示:AttributeError原创 2020-09-29 11:04:10 · 5098 阅读 · 0 评论 -
正则表达式
正则表达式案例1:定义密码的正则表达式规则:英文字母开头,可以包括数字大小写英文字母下划线,6-16位^[a-zA-Z][a-zA-Z0-9_]{5,15}案例2:匹配div标签,匹配class="class1"中的文本内容: 要匹配的内容 div_pattern1 = '(.*)'...原创 2020-09-29 08:15:52 · 75 阅读 · 0 评论