使用多进程 及 代理池爬取小说(python)

1.

b4c024197c9948d7b7eb92d5175f3133.png

 

(1)

打印出现NoneType的地方

结果显示:

<class 'NoneType'>

原因:经过查阅资料发现:出现这种问题就是,获取不到数据。原因就是该网站被爬太多次,我们被该网页服务器的反爬虫程序发现了,并禁止我们爬取。因此我们需要模拟浏览器,重新给服务器发送请求,并且添加头等信息headers,headers是解决requests请求反爬的方法之一,相当于我们进去这个网页的服务器本身,假装自己本身在爬取数据。对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 。

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDA1MjA1NQ==,size_16,color_FFFFFF,t_70#pic_center

 

注意:headers中有很多内容,主要常用的就是user-agent 和 host,他们是以键对的形式展现出来,如果user-agent 以字典键对形式作为headers的内容,就可以反爬成功,就不需要其他键对;否则,需要加入headers下的更多键对形式。

你可以找你的浏览器的header,我这里直接给出一个header运行

header = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

未解决

参考文章:解决python爬虫时遇到AttributeError: ‘NoneType‘ object has no attribute ‘find_all‘_小朱小朱绝不服输的博客-CSDN博客

(2)

BeautifulSoup报"AttributeError: 'NoneType' object has no attribute 'find_all' "的原因可能有很多,包括URL错误、HTML代码有误、标签、属性不存在等等。

在使用find_all()方法查找标签时,应该先确保标签、属性存在,避免出现这个错误。同时,推荐使用其他解析器,如lxml,来解决这个问题。

print(soup.find(attrs={'class':'mb20'}).find_all('a'))

ed3dd6d30e7f4b628b38b93ddda4bade.png

 c8043baef825482592493b43e3169ebb.png

729e8c8fe223460485e156b5cd261f0b.png

 

 534bf97ea43c496ebe577e02e5ffb0bc.png

标签名不唯一,find方法

获取到指定文档从上到下第一个指定标签

 解决思路:换一本书

9463116c084d455b90bb665be91aff4b.png

 

5eb92d77cd974021b0df5e25ec8adb9b.png

 发现换一本书结构也是一样的,box_con标签还是有两个。且最新章节正文部分在一个box_con容器内

for i in (soup.find_all(attrs={'class':'box_con'}).find_all('a')):

e336f0e04bef4280b27a1db1313ed91c.png

 

for i in (soup.find_previous(attrs={'class':'box_con'}).find_all('a')):

30fd57a1cc6f4acc8797e05cac45355c.png

 

for i in (soup.find_next(attrs={'class':'box_con'}).find_all('a')):

5b090287b5d7467cb0d88dbfa2252456.png

 

for i in (soup.find_previous(attrs={'class':'box_con'})[1:].find_all('a')):

914ac2e25e6e440b9e4c0ce8f89ce3b8.png

 

for i in (soup.find_all(attrs={'class':'box_con'})[1].find_all('a')):

成功

参考文章:

BeautifulSoup报”AttributeError: ‘NoneType’ object has no attribute ‘find_all’ “异常的原因以及解决办法_Python技术站

2.

数据在打开某一节的内容,打开抓包工具netork>Fetch>payload data = { 'articleid': '173_173952', 'chapterid': chapterid, 'pid': flag, }

55c90fcf37bb4e5783d4a896028b46ae.png

http://www.ibiqu.org/173_173952/

打开一章的内容,打开抓包工具netork>Fetch>payload

binbin41eabe28f0084d09b073646bd6fa919a.png

屏蔽部分代码后,运行结果都是目录的内容

3b526e89a83f486b9f295738cf618ed6.png

 

 

 

  • 24
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Python是一种非常流行的编程语言,它具有众多优势,包括易学易用、开发效率高等。在数据爬取方面,Python也具有相对优势,可以通过多线程和多进程来提高数据爬取效率。 多线程是一种将一个进程分为多个线程执行的技术,可以有效利用计算机的资源,同时完成多个任务。在数据爬取方面,可以将多个URL请求分配到不同的线程中去执行,从而实现同时请求多个URL,提高数据爬取速度和效率。 多进程则是将一个任务分为多个进程执行,每个进程有自己的资源和空间,在数据爬取方面,可以将不同的URL请求分配到不同的进程中去执行,这样可以充分利用计算机的多核处理器,同时完成多个任务,提高数据爬取效率。 在使用Python进行数据爬取时,需要根据实际的情况选用合适的多线程或多进程方式来处理数据,其中需要注意线程间共享资源的问题,尤其是多个线程同时访问同一份数据时需要进行合理的控制和调度。 总的来说,通过使用Python的多线程和多进程技术,可以有效提高数据爬取效率,从而更好的服务于数据分析和应用。 ### 回答2: 随着互联网的发展,数据量爆炸式增长,数据爬取成为了许多公司和个人必不可少的工作。而对于数据爬取而言,效率和速度是非常重要的因素。因此,在进行大规模数据爬取时,采用多线程或多进程技术可以大大提高爬取效率。 首先,我们来理解一下什么是多线程和多进程。多线程是在一个进程内开启多个线程,这些线程共享进程的资源,如内存等。多线程适合IO密集型的操作,如网络爬虫、文件读写等。而多进程则是在操作系统中开启多个进程,各自拥有独立的资源,如内存、文件等。多进程适合CPU密集型的操作,如图像识别、加密解密等。因此,在选择多线程还是多进程时,需要根据具体爬取任务进行考虑。 对于Python而言,它可以通过使用 threading 和 multiprocessing 模块来实现多线程和多进程,分别引入 Thread 和 Process 两个类。而在网络爬虫中,多线程运行多个爬取任务,可以大大提高页面的下载速度。在爬虫程序中,我们可以通过 Python 对于 urllib 和 requests 模块进行多线程异步请求,利用 Python 线程 ThreadPoolExecutor 和 asyncio 模块的异步特性,实现高性能网络爬虫。 另外,在进行数据爬取时,需要注意反爬机制,如设置合适的请求头、降低请求频率等。同时,也需要注意保持数据的一致性和准确性。在使用多线程或多进程进行数据爬取时,也需要注意线程和进程间的交互和同步,如使用队列等数据结构进行数据共享、使用锁机制进行数据的同步等。 综上所述,Python 多线程多进程爬取大量数据可以提高爬取效率和速度,但也需要根据具体任务进行选择。同时,在进行数据爬取时需要注意反爬机制和数据的一致性和准确性,保证数据的安全和可信度。 ### 回答3: Python作为一种高级编程语言,在数据采集和分析方面具有优秀的表现。为了能更快地完成数据爬取任务,Python可以使用多线程和多进程方式。下面我们来介绍一下这两种方式具体的特点和使用方法。 首先,Python的多线程方式是通过创建多个线程来同时执行任务,这些线程共享同一个进程空间,因此可以用来提高数据爬取效率。在多线程模式下,每个线程都有自己的任务和数据,这些线程可以并行地执行,从而大大提升了数据爬取的速度。同时,多线程也可以实现类似于并发、异步的效果,因为每个线程都可以独立地进行访问和解析等操作。 然而,在Python使用多线程还是存在一些限制的。由于GIL(Global Interpreter Lock)的限制,多线程模式不能充分利用多核CPU的优势,因为这些线程都是在同一个进程中运行的,而GIL只允许有一个线程在同一时间内执行Python代码。因此,在需要利用多核CPU的情况下,需要使用多进程方式。 基于多进程的方式,可以将一个任务划分为若干个子任务,每个子任务运行在独立的进程中,它们之间互不干扰。这样,每个进程都可以利用独立的CPU核心来执行任务,从而提高了并发性和整体运行效率。而且,在多进程模式下,Python可以很好地利用操作系统的资源管理功能,同时能够充分利用硬件资源,实现高效的数据爬取。 总的来说,Python的多线程和多进程方式都可以用来实现数据爬取,并且都有各自的优点和适用场景。在实际应用中,应该根据任务的复杂度和硬件环境等因素来选择最适合的方式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值