- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 爬虫基础之w3lib
目前在做的项目中遇到一个需求:将爬取到的大量网页中的文本提取出来。由于网页太多,无法逐个分析使用xpath表达式进行提取。使用正则表达式可以实现,但太麻烦。这里介绍一款专业处理这方面问题的包w3lib w3lib简介 w3lib是一个Python包,实现了一下与web相关的功能: 从html片段中移除注释或者标签 从html片段中提取base url 对html串中的字符实体进行转义 将原始...
2018-12-17 21:37:09 3509 1
原创 爬虫基础之Xpath!
Xpath介绍 参见https://www.cnblogs.com/tangyongathuse/p/6890268.html 安装及调用 参见https://jingyan.baidu.com/article/c910274bb21a57cd361d2d01.html Xpath语法 div[1] 获取本页面第一个div div[last()] 获取本页面最后一个div div[last()-1...
2018-12-13 16:33:49 210
原创 爬虫基础之网页结构!
网页的图结构 网站URL结构设计图 这里以伯乐在线为例,链接之间互相勾连,其实构成了一幅有向图 爬取整个站点的策略 当我们要对伯乐在线这个网站整体进行爬取时, step1:进入伯乐在线的首页(www.jobbole.com),提取首页所有的子链接,比如top.jobbole.com、blog.jobbole.com等等 step2:选择step1中的子链接,再提取该页包含的子链接 step3:子...
2018-12-12 21:40:41 1477
原创 爬虫基础之正则表达式!
必备: ^x 以x开头 x$ 以x结尾 . 任意字符 x+ or x{1,} x必须至少出现一次(1次或多次) x* or x{0,} x可以不出现,也可以出现一次或者多次(0次、或1次、或多次) x? or x{0,1} x最多只可以出现一次(0次、或1次) [0-9] 匹配单个数字 [a-z] 匹配单个字母 x{n} x出现n次 x{n,} x至少出现n次,可以出现n+1次 x{n,m} x最...
2018-12-11 22:21:30 208
IKAnalyzer2012_u3
2017-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人