爬虫小白
文章平均质量分 64
__淡墨青衫__
这个作者很懒,什么都没留下…
展开
-
【爬虫小白】scrapy设置User-Agent小技巧
我们在scrapy项目中,修改请求时的User-Agent可以有两种方法:一种时修改settings里面的USER-AGENT变量;第二种是通过Downloader Middleware的proscss_request()方法来修改。第一种方法非常简单,我们只需要在setting.py里面加USER-AGENT的定义即可:USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML,原创 2021-03-09 11:43:54 · 1952 阅读 · 0 评论 -
【爬虫小白】各种请求使用代理的方法
一下以快代理的代理的使用方法作为例子requests设置代理import requestsproxy = '127.0.0.1:7777'proxies={ 'http:http://'+proxy, 'https:https://'+proxy}try: response=requests.get('https://baidu.com',proxies=proxies) print(response.text)except requests.excep原创 2021-03-01 15:55:42 · 463 阅读 · 0 评论 -
【爬虫小白】aiohttp异步爬取简单使用
了解aiohttp aiohttp是一个基于asyncio的异步http网络模块,它既提供了服务端,有提供了客户端。其中我们可以用服务端搭建一个支持异步处理的服务器,用于处理请求并返回响应,类似于Django、Flask等一些Web服务器,而客户端我们就可以用来发起请求,就类似于requests来发起一个http请求然后获得响应,但requests发起的是同步网络请求,而aiohttp则发起的是异步的。我们先了解一下aiohttp客户端部分使用。基本使用基本实例我们先看一个...原创 2021-02-26 16:45:10 · 1866 阅读 · 1 评论 -
【爬虫小白】异步爬虫原理和解析
异步基础概念在了解异步协程之前,先得了解一些基础概念,如堵塞和非堵塞、同步和异步、多进程和协程。阻塞阻塞状态指程序未得到所需计算资源被挂起的状态。程序在等待某个操作完成期间,自身无法继续处理其它的事情,则称该程序在该操作上是阻塞的。常见的阻塞形式有:网络I/O阻塞、磁盘I/O阻塞、用户输入阻塞等。阻塞是无处不在的,包括CPU切换上下文时,所有的进程都无法真正处理事情,它们也会被阻塞。如果是多核CPU则正在执行上下文切换操作的核不可被利用。非阻塞程序在等待某操作过程中,自身不被阻塞,可原创 2021-02-24 11:20:10 · 870 阅读 · 0 评论 -
【Python】爬虫入门首选,Request库的基本使用
安装pip install requests请求GET请求【示例】如下:import requestsr=requests.get('http://baidu.com')print(r.text)get请求携带参数【示例】如下:#方式一url="http://httpbin.org/get?name=germey&age=25"#参数是name=germey 和age=25#可以直接请求import requestsreq =reqquest原创 2020-12-31 11:26:09 · 210 阅读 · 0 评论 -
爬虫系列-掌握HTTP基本原理(重要)
目录首先需要了解URL和URI的区别URI和URL超文本协议HTTP和HTTPSHTTPHTTPSHTTP请求过程请求基础认识请求请求方法请求头请求体响应响应头响应体首先需要了解URL和URI的区别URI和URLURL(Universal Resource Locator)即统一资源定位符URI(Uniform Resource Identifier)即统一资源标志符号例如:https://github.com/fac.原创 2020-10-28 16:51:54 · 647 阅读 · 0 评论 -
【Python】理解多线程基本原理
目录多线程的含义并行和并发Python实现多线程创建子线程方法一创建子线程方法二守护线程互斥锁多线程的含义线程是操作系统进行运算调度的最小单位,是进程中的一个最小运行单元。多线程就是一个进程中同时执行多个线程,比如,打开一个浏览器,是一个进程,浏览器里面打开多个页面,有的页面打开音乐,有的打开视频,它们可以同时运行,互不干扰,这就是多线程在工作。并行和并发并发并发,是指同一时刻只能有一条指令执行,但是多个线程的对应的指令被快速轮换地执行。比如说一个处.原创 2020-11-24 15:43:38 · 485 阅读 · 1 评论 -
【Python】理解多进程基本原理
多进程的含义进程(Process)是具有一定独立功能的程序关于某给数据集合上的一次运行活动,是系统进行资源分配和调度的一个独立单位。多进程就是启用多个进程同时运行,由于进程是线程的集合,而且进程是由一个或多个线程构成,所以多进程的运行意味着有大于或等于进程数量的线程在运行。Python多进程的优势根据这节线程基本原理了解到,由于进程中GIL的存在,Python中的多线程并不能很好地发挥多核优势,一个进程中的多线程,在同一时刻只能有一个线程运行。对于多进程来说,每一个进程都有属于自己的GI原创 2020-12-30 15:22:47 · 654 阅读 · 0 评论