2021/5/30爬虫第五次周复盘

一、并发执行和并行执行

并发执行和并行执行

二、线程的操作

threading.enumerate()#Return a list of all Thread objects currently alive
#以列表形式返回存在的线程对象

Thread.setDaemon(true)

三、多线程开发中的BUG

  1. 资源竞争:一个线程写入,一个线程读取,没问题,如果两个线程都写入呢?,这时很容易发生资源竞争现象
  2. 阻塞:正在运行的进程由于提出系统服务请求(如I/O操作),但因为某种原因未得到操作系统的立即响应,或者需要从其他合作进程获得的数据尚未到达等原因,该进程只能调用阻塞原语把自己阻塞,等待相应的事件出现后才被唤醒。
  3. 死锁:死锁是指两个或两个以上的进程在执行过程中,由于竞争资源或者由于彼此通信而造成的一种阻塞的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。(由于锁操作不当造成)

解决1、2:

  • time.sleep
  • t1.join
  • 正确加锁

若线程开的太多:
会造成JSONDecodeError报错
原因是爬的速度太快,页面没有及时返回

python多线程详解(超详细)

四、queue队列

Python多线程和队列结合demo

五、线程中主线程与子线程之间的关系

线程的生命周期:创建、执行、结束
守护线程的运用场景:如果希望子线程一直运行(类似于后台运行),可以把子线程的代码写在while True里面一直循环,但同时要设置为守护线程,不然主线程结束了,子线程还一直运行,程序结束不了。

1、最常见的情况,主线程中开启了一个子线程,开启之后,主线程与子线程互不影响各自的生命周期,即主线程结束,子线程还可以继续执行;子线程结束,主线程也能继续执行。
2、主线程开启了子线程,但是主线程结束,子线程也随之结束
这里使用了Thread.setDaemon(true)方法
3、主线程开启了一个子线程,主线程必须要等子线程运行完之后,才能结束主线程
这里使用了join()方法,让主线程等待子线程结束,然后主线程继续执行。这里join()方法必须要在子线程启动之后,再调用。

六、Scrapy框架(让我们的爬虫更快更强大)

回顾之前学的爬虫技术:(快)
requests(html)—>selenium(完全模拟人的行为)—>运用多线程—>Scrapy框架
解析技术:(强)
正则,xpath,bs4,selenium自带的一些解析技术
存储技术:(强)
csv,queue,Scrapy封装的一些存储技术

目标url:https://www.douban.com/
爬取的内容 标题
​
第一步 先创建scrapy项目 (dos命令行 pycharm终端)
首先要cd到目标文件夹下
scrapy startproject mySpider(scrapy项目的名称)
​
第二步 创建爬虫程序
baidu.com  douban.com
scrapy genspider demo "demo.cn" (demo是你爬虫的名字 demo.cn 爬取的范围/域名)
​
第三步 运行scrapy的命令
1 在终端 scrapy crawl 爬虫名字(demo)
2 可以运行py文件
我们先创建一个py文件(在项目下)
from scrapy import cmdline
cmdline.execute('scrapy crawl demo'.split())
cmdline.execute(['scrapy','crawl','demo'])

七、小补充

timeout是一个命令行实用程序,它运行指定的命令,如果在给定的时间段后仍在运行,则终止该命令。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笔记本IT

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值