python 爬虫小记

本文偏向于个人学习笔记,不一定很强的参考价值。

网页爬取分为动态和静态。


静态:较为简单,用urllib,urllib2,beautifulsoup之类的组合可以完成。

动态:主要思想是模拟人的浏览行为,通过点击等,让页面完全加载出来,解决js等问题。目前比较理想的选择方案是selenium和QtWebKit。 selenium我刚起步,但每次都会打开网页完成一系列操作,如果用于服务器或是大批量爬取肯定会有速度影响。QtWebKit应该可以试一下。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值