爬虫笔记
文章平均质量分 65
Makesths
不论是开发还是测试, 你对一份工作的投入程度决定了你能够发挥的潜力
展开
-
爬虫心得——关于我踩坑并在坑里摸爬滚打的二三事
cookie不会凭空出现,也不会凭空消失如果你在某个请求池里发现一个突然出现的cookie:要么是一个未被发现的接口,要么是某个js在生成cookie原创 2022-02-13 20:28:44 · 163 阅读 · 0 评论 -
Xpath如何选择标签同级的文本
使用标签中的文本来选取元素,是xpath中屡试不爽的技巧,通过我们处理的这种标签的内层都会包含文字,举个例子:<div>CSDN</div>可以用//div[contains(string(), "CSDN")]或者//div[contains(text(), "CSDN")]来选取。但如果遇到形似<input>这类没有结束标签的时候,上面的方法就不适用了,例如以下:<div> <span>请选择语言:</span> <原创 2021-01-09 15:02:04 · 1612 阅读 · 2 评论 -
如何提高爬虫工作效率?
对于大规模爬虫来说,效率是最核心的问题,没有效率,就没有意义。没有哪个公司或者个人愿意等一个月或者几个月才能爬取几十万上百万的页面。所以,对于大规模爬虫来说,优化流程、提升效率是十分重要的。一、尽量减少访问次数。单次爬虫任务的主要耗时在于网络请求等待响应,所以能减少网络请求就尽量减少请求,既能减少目标网站的压力,也能减少代理服务器的压力,同时还能减少自己的工作量,提高工作效率。二、精简流程,减少重复。大部分网站并不是严格意义上互不交叉的树状结构,而是多重交叉的网状结构,所以从多个入口深入的网页会有很转载 2020-05-14 18:15:58 · 1056 阅读 · 0 评论 -
爬虫进阶知识>解析网站中的JavaScript
js解析引言在了解如何调试js之前, 需要简单了解一下http的请求过程1.DNS域名解析;2.建立TCP连接;3.发送HTTP请求;4.服务器处理请求;5.返回响应结果;6.关闭TCP连接;7.浏览器解析HTML;8.浏览器布局渲染;上面8个步骤被戏称为"天龙八步"参考链接: https://zhuanlan.zhihu.com/p/32370763简单说一下我自己...原创 2019-11-07 19:36:31 · 6269 阅读 · 0 评论 -
浅析数据加密
浅析数据加密什么是加密?加密的目的:对数据的一种保护措施;核心是密码学加密的类型:常见的加密分以下三种类型:单项加密 --> md5, base64对称加密 --> DES, AES非对称加密 --> RSA加密过程:明文的文件或数据按照某种(加密)算法进行处理,使其变为不可读的(密文)被加密的数据对象必须是二进制类型, 我们可以使用encode()和...原创 2019-10-30 23:00:24 · 478 阅读 · 0 评论 -
爬虫框架pyspider - 快速上手
爬虫框架pyspider - 快速上手pyspider是国人开发的一款灵活便捷的爬虫框架, 相较于Scrapy框架来说, pyspider更适合被用于中小规模的爬取工作了解更多: 爬虫框架pyspider个人总结(详细)熟悉安装说明pyspider使用命令安装: pip install pyspider使用 Ubuntu 安装时需要先装依赖包(升级pip后执行命令)sudo apt...原创 2019-10-30 22:59:08 · 5333 阅读 · 1 评论 -
[python]收纳一些常见问题——更新于20240122
安装pyspider过程出错:ERROR: Command errored out with exit status 10: python setup.py egg_info Check…https://blog.csdn.net/weixin_43810415/article/details/99694315原创 2019-10-28 19:52:13 · 1211 阅读 · 3 评论 -
[爬虫基础] 学习爬虫前你需要知道这些
爬虫简介什么是爬虫?爬虫的原理就是模拟用户访问服务端爬虫的概念网络爬虫也叫网络蜘蛛,它特指一类批量下载网络资源的程序,这是一个比较口语化的定义。更加专业和全面对的定义是:网络爬虫是伪装成客户端(Client),与服务端(Server)进行数据交互的程序。使用爬虫时有一个robots协议,在爬取某个网站时要尽量遵循该协议,查看协议的方法,例如百度:https://www.baidu....原创 2019-10-20 15:35:50 · 429 阅读 · 0 评论