python爬虫编写

最新推荐文章于 2024-02-16 10:53:15 发布

CugBug

最新推荐文章于 2024-02-16 10:53:15 发布

阅读量567

点赞数

文章标签： python url 爬虫

本文链接：https://blog.csdn.net/CugBug/article/details/51901381

版权

最近两天有任务要批量抓取一些东西，用到了爬虫技术，两天写了三个市场的爬虫，分享一下学习经验。

page = requests.get(main_url+"_"+str(pagenum))
page = page.content

一般都能在html中找到DownLoadURL，直接通过特征提取出这些即可。特征大多是某些xml标记，我没有尝试使用xml解析工具进行解析，因为那样貌似要导入新的包，可以尝试使用解析工具。
有些DownLoadURL和一般的显示详细信息URL有联系，那么可以提取详细信息的URL做变换得到DownLoadURL
发现了一个市场的下载地址会变化，大概是通过了一次跳转才到的真正的DownLoadURL，而包含在html中的DownLoadURL是在变化的，仅仅只能在这个浏览器上使用，若换一个Client则提取出来的DownLoad会变化。这就让我头疼了，仔细研究了一下感觉他是通过一个变换运算获得一个字符串，以他为基础掩饰自己真正的DownLoadURL。服务器监听Client，一次会话只能用一个对应的DownLoadURL，一旦结束会话则失效。然而知道了大概原理后的我依旧束手无策。。。
编码是个大问题，需要好好琢磨。