网络爬虫学习总结(1)

网络爬虫工作原理

爬虫执行过程

爬虫流程图

爬虫执行时序

爬虫时序

爬虫技术之数据抓取

在爬⾍实现上,除了scrapy框架之外,python有许多与此相关的库可供使⽤。其中,在数据抓取⽅⾯包括: urllib(urllib3)、requests、mechanize、selenium、splinter;
其中,urllib(urllib3)、requests、mechanize⽤来获取URL对应的原始响应内容;⽽selenium、splinter通过加载浏览器驱动,获取浏览器渲染之后的响应内容,模拟程度更⾼。
考虑效率、当然能使⽤urllib(urllib3)、requests、mechanize等解决的尽量不⽤selenium、splinter,因为后者因需要加载浏览器⽽导致效率较低。
对于数据抓取,涉及的过程主要是模拟浏览器向服务器发送构造好的http请求,常⻅类型有:get/post。

爬虫技术之数据解析

在数据解析⽅⾯,相应的库包括:lxml、beautifulsoup4、re、pyquery。
对于数据解析,主要是从响应页面里提取所需的数据,常⽤⽅法有:xpath路径表达式、CSS选择器、正则表达式等。
其中,xpath路径表达式、CSS选择器主要⽤于提取结构化的数据。⽽正则表达式主要⽤于提取非结构化的数据。

其他技术

爬树技术总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值