自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_39408590的博客

原创 Scrapy：爬取豆瓣图书

一、Scrapy原理工作原理：通过引擎统领其他成员协同工作。在使用Scrapy的时候，不需要关心爬虫的每个流程，scrapy中的网络请求都是默认异步模式，请求和返回都会由引擎自动分配处理。如果某个请求出现异常，框架会做异常处理，跳过这个异常的请求，继续去执行后面的程序。Scheduler（调度器）主要负责处理引擎发送过来的requests对象，把请求的url以有序的方式排列成队，等待引擎提取（类似gevent库的queue模块）。（Scrapy已实现）Downloader（下载器）负责处理引擎发送

2020-06-12 11:49:47 1440

原创 python：多协程爬取数据（队列）

一、知识点理解异步：在一个任务未完成时，就可以执行其他多个任务，彼此不受影响。同步：一个任务结束后才能启动下一个。比较：异步执行任务会比同步更节省时间，能减少不必要的等待。多协程（非抢占式异步技术）：一个任务在执行过程中，如果遇到等待，就先去执行其他的任务，当等待结束，再回来继续之前的任务。在计算机的世界中这些任务的回切速度非常迅速，看上去就像多个任务被同时执行一样。要求：实现多个爬虫同时执行任务，实现异步的爬虫方式。二、多协程爬虫实现前提：安装gevent库：pip install geve

2020-06-08 23:42:58 711

原创 python：selenium运用

一、知识点selenium的作用用来控制浏览器，做出自动打开、输入、点击等操作，模拟用户操作。知识点理解静态网页：网页源代码中就包含着网页的所有信息，网页地址栏的URL就是网页源代码的URL。动态网页：有些网页数据是从服务器获取然后动态渲染到网页中的。比如QQ音乐，要爬取的数据不在HTML源代码中，而是在json中，不能直接使用网址栏的URL了，而需要找到json数据的真实URL。selenium的使用：在遇到页面交互复杂或是URL加密逻辑复杂的情况时，selenium可以真实地打开一个浏览器，

2020-06-04 11:16:17 293

原创 python:cookie和session及其运用

一、cookie及其用法[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dDoG6JlM-1590902439190)(en-resource://database/2387:0)]登录的参数（form data）：log：账号pwd：密码wp-submit：登录的按钮redirect_to：登录后跳转过去的链接Response [200]：意味着服务器接收到并响应了登录请求，登录成功。提取cookie：cookie = response.cookies调

2020-05-31 13:22:17 689

原创配置hadoop环境中碰到的问题

1、rsa in sshfp 1 1解决办法：输入ssh-keygen生成密钥到/root/.ssh再输入ssh-keygen -r rsa -t -P ‘’生成密钥到~/.ssh中2、E:无法霍德锁/var/lib/dpkg/lock解决办法：sudo rm /var/cache/apt/archives/locksudo rm /var/lib/dpkg/lock...

2019-04-01 19:12:23 338

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除