爬虫-写在前面的粗浅见解

人间暖风

于 2018-09-23 23:47:46 发布

阅读量180

点赞数 1

分类专栏： Python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42792573/article/details/81565701

版权

Python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬虫的方法总结：

爬虫的本质是网络请求和数据处理。

1、手机端优先PC端（酌情）

2、接口数据优先网页源代码数据（酌情）

1、pc端爬取：headers cookies IP time.sleep()，scrapy+request、selenium 与splash
2、手机端爬取：主要方向App ，微信小程序入手较容易 headers cookies time.sleep()
3、pc端爬虫与手机端爬虫相结合，F12电脑转为手机端，数据的两相结合减小爬虫的难度
4、在上述任意方向爬取数据，如果是有特殊的数据要求，如：在某网站列表页中，要求以评论数或者购买量亦或者价格、点击量来排序，我们需要先进行手动的点击操作来查看是触发了怎样的请求，get请求变化的是url，可直接通过改变url来进行爬取，post请求是需要找寻post了怎样的数据，将此数据带入data，带着此data数据来请求url。于此完成了在开始的对数据的多要求。
5、工具：fiddler charles
6、selenium ：selenium 的xpath解析，下载整个渲染后的页面再使用正则re或者xpaht解析、获取cookies传递给速度更快的爬虫
7、上述的任何方法，不论是请求亦或是解析，都可结合使用。外网有许多是可以不用代理直接访问，需要代理的再使用代理。
8、只要跟网络请求有关的一切web http https 都属于requests或者urllib2的范围
9、面向过程：xpath 。面向对象：bs手段

正则：掌握大量表达式性能效率最高
xpath ：树形结构适中 lxml
bs4 ：标签 class id 最低 bs4对象耗时 document

针对反爬：UA要有UA池、IP要有IP池

UA：第三方库 fake_useragent
IP：
1. 爬取免费的ip代理，测试可用便存储，每一次使用也要先进行测试，可用再使用
2. 买ip

Cookie : 在爬虫spider中的作用相当于：登录成功以后得访问身份标识、万能钥匙。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫-写在前面的粗浅见解

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。