python爬虫编写

python爬虫编写

最近两天有任务要批量抓取一些东西,用到了爬虫技术,两天写了三个市场的爬虫,分享一下学习经验。

大致思路

  1. 找到目标网址,F12查看源码。找到关键的下载URL。
  2. 根据特征,使用正则表达式或者直接find()找到对应的字符串。
  3. requests.get() 和 .content 获取目标内容
  4. 运行测试,处理编码等问题
page = requests.get(main_url+"_"+str(pagenum))
page = page.content

经验

  1. 一般都能在html中找到DownLoadURL,直接通过特征提取出这些即可。特征大多是某些xml标记,我没有尝试使用xml解析工具进行解析,因为那样貌似要导入新的包,可以尝试使用解析工具。
  2. 有些DownLoadURL和一般的显示详细信息URL有联系,那么可以提取详细信息的URL做变换得到DownLoadURL
  3. 发现了一个市场的下载地址会变化,大概是通过了一次跳转才到的真正的DownLoadURL,而包含在html中的DownLoadURL是在变化的,仅仅只能在这个浏览器上使用,若换一个Client则提取出来的DownLoad会变化。这就让我头疼了,仔细研究了一下感觉他是通过一个变换运算获得一个字符串,以他为基础掩饰自己真正的DownLoadURL。服务器监听Client,一次会话只能用一个对应的DownLoadURL,一旦结束会话则失效。然而知道了大概原理后的我依旧束手无策。。。
  4. 编码是个大问题,需要好好琢磨。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值