自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Scrapy:爬取豆瓣图书

一、Scrapy原理 工作原理:通过引擎统领其他成员协同工作。 在使用Scrapy的时候,不需要关心爬虫的每个流程,scrapy中的网络请求都是默认异步模式,请求和返回都会由引擎自动分配处理。如果某个请求出现异常,框架会做异常处理,跳过这个异常的请求,继续去执行后面的程序。 Scheduler(调度器)主要负责处理引擎发送过来的requests对象,把请求的url以有序的方式排列成队,等待引擎提取(类似gevent库的queue模块)。(Scrapy已实现) Downloader(下载器)负责处理引擎发送

2020-06-12 11:49:47 1300

原创 python:多协程爬取数据(队列)

一、知识点理解 异步:在一个任务未完成时,就可以执行其他多个任务,彼此不受影响。 同步:一个任务结束后才能启动下一个。 比较:异步执行任务会比同步更节省时间,能减少不必要的等待。 多协程(非抢占式异步技术):一个任务在执行过程中,如果遇到等待,就先去执行其他的任务,当等待结束,再回来继续之前的任务。在计算机的世界中这些任务的回切速度非常迅速,看上去就像多个任务被同时执行一样。 要求:实现多个爬虫同时执行任务,实现异步的爬虫方式。 二、多协程爬虫实现 前提:安装gevent库:pip install geve

2020-06-08 23:42:58 642

原创 python:selenium运用

一、知识点 selenium的作用 用来控制浏览器,做出自动打开、输入、点击等操作,模拟用户操作。 知识点理解 静态网页:网页源代码中就包含着网页的所有信息,网页地址栏的URL就是网页源代码的URL。 动态网页:有些网页数据是从服务器获取然后动态渲染到网页中的。比如QQ音乐,要爬取的数据不在HTML源代码中,而是在json中,不能直接使用网址栏的URL了,而需要找到json数据的真实URL。 selenium的使用:在遇到页面交互复杂或是URL加密逻辑复杂的情况时,selenium可以真实地打开一个浏览器,

2020-06-04 11:16:17 222

原创 python:cookie和session及其运用

一、cookie及其用法 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dDoG6JlM-1590902439190)(en-resource://database/2387:0)] 登录的参数(form data): log:账号 pwd:密码 wp-submit:登录的按钮 redirect_to:登录后跳转过去的链接 Response [200]:意味着服务器接收到并响应了登录请求,登录成功。 提取cookie: cookie = response.cookies 调

2020-05-31 13:22:17 541

原创 配置hadoop环境中碰到的问题

1、rsa in sshfp 1 1 解决办法: 输入ssh-keygen 生成密钥到/root/.ssh 再输入ssh-keygen -r rsa -t -P ‘’ 生成密钥到~/.ssh中 2、E:无法霍德锁/var/lib/dpkg/lock 解决办法: sudo rm /var/cache/apt/archives/lock sudo rm /var/lib/dpkg/lock ...

2019-04-01 19:12:23 252

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除