- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 爬虫基础之w3lib
目前在做的项目中遇到一个需求:将爬取到的大量网页中的文本提取出来。由于网页太多,无法逐个分析使用xpath表达式进行提取。使用正则表达式可以实现,但太麻烦。这里介绍一款专业处理这方面问题的包w3libw3lib简介w3lib是一个Python包,实现了一下与web相关的功能:从html片段中移除注释或者标签从html片段中提取base url对html串中的字符实体进行转义将原始...
2018-12-17 21:37:09 3449 1
原创 爬虫基础之Xpath!
Xpath介绍参见https://www.cnblogs.com/tangyongathuse/p/6890268.html安装及调用参见https://jingyan.baidu.com/article/c910274bb21a57cd361d2d01.htmlXpath语法div[1] 获取本页面第一个divdiv[last()] 获取本页面最后一个divdiv[last()-1...
2018-12-13 16:33:49 176
原创 爬虫基础之网页结构!
网页的图结构网站URL结构设计图这里以伯乐在线为例,链接之间互相勾连,其实构成了一幅有向图爬取整个站点的策略当我们要对伯乐在线这个网站整体进行爬取时,step1:进入伯乐在线的首页(www.jobbole.com),提取首页所有的子链接,比如top.jobbole.com、blog.jobbole.com等等step2:选择step1中的子链接,再提取该页包含的子链接step3:子...
2018-12-12 21:40:41 1458
原创 爬虫基础之正则表达式!
必备:^x 以x开头x$ 以x结尾. 任意字符x+ or x{1,} x必须至少出现一次(1次或多次)x* or x{0,} x可以不出现,也可以出现一次或者多次(0次、或1次、或多次)x? or x{0,1} x最多只可以出现一次(0次、或1次)[0-9] 匹配单个数字[a-z] 匹配单个字母x{n} x出现n次x{n,} x至少出现n次,可以出现n+1次x{n,m} x最...
2018-12-11 22:21:30 195
IKAnalyzer2012_u3
2017-12-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人