使用urllib和beautifulSoup实现爬虫抓取小说网站书名，解决BUG：NoneType object has no attribute 'find_all'

最新推荐文章于 2024-08-22 12:41:20 发布

重装系统20块谢谢

最新推荐文章于 2024-08-22 12:41:20 发布

阅读量1.3w

点赞数

分类专栏：爬虫 urllib BeautifulSoup

本文链接：https://blog.csdn.net/qq_37828633/article/details/80641431

版权

本文介绍如何使用Python的urllib库抓取小说网站的数据，并通过BeautifulSoup进行解析。在解析过程中，特别提到了一个常见错误：当对象为None时调用'find_all'方法会抛出AttributeError。解决方案是确保在调用该方法前对象已正确初始化。

摘要由CSDN通过智能技术生成

首先找一个网站，例如

urlHTML='http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book'

接下来利用urllib库抓取数据，保存数据到一个变量中

request_data=urllib.request.urlopen(urlHTML)

用beautifulSoup解析网页语法，并保存结果，注意此处第二个参数不能使用单引号，

否则会出现BUG NoneType object has no attribute 'find_all'

soup=BeautifulSoup(request_data,"html.parser")



字典定义筛选规则，使用bS库find方法抓取数据

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

重装系统20块谢谢

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用python爬虫，requests(夹带BeautifulSoup的使用)爬取网络小说

kjadhgfiuao的博客

11-06

587

使用python爬虫，requests(夹带BeautifulSoup的使用)爬取网络小说由于本人也是初学者，算是小白一枚，这里跟大家分享一下爬取网站上的小说的过程。第一步我们需要导入我们需要的模块，比如requests,BeautifulSoup,还有正则模块re。 import re import requests from bs4 import BeautifulSoup 然后我们需要找到我们需要爬取的网站，这里我选用了这个网站：* http://www.tianxiabachang.cn 接

解决python爬虫时遇到AttributeError: ‘NoneType‘ object has no attribute ‘find_all‘

小朱小朱绝不认输的博客

09-16

8万+

最近在练习学到的爬虫实例遇到AttributeError: ‘NoneType’ object has no attribute 'find_all’的错误。爬虫要求如下：任务描述：https://movie.douban.com/cinema/later/beijing/ 这个页面描述了北京最近上映的电影，你能否通过 Python 得到这些电影的名称、上映时间和海报呢？这个页面的海报是缩小版的，我希望你能从具体的电影描述页面中抓取到海报。在运行老师给的代码如下： import requests fr

1 条评论您还未登录，请先登录后发表或查看评论

BeautifulSoup：强大的HTML和XML解析利器

最新发布

qq_29929123的博客

08-22

825

BeautifulSoup是一个Python库，它可以从HTML或XML文件中提取数据。它的名字来源于"标签汤"（tag soup），这是对格式混乱的HTML的一种俏皮称呼。BeautifulSoup提供了简单的方法来导航、搜索和修改解析树，使得从网页中提取信息变得轻而易举。BeautifulSoup是一个强大而灵活的工具，适用于各种HTML和XML解析任务。它的简单API和强大的功能使得网页抓取和数据提取变得容易。

使用BeautifulSoup的soup.find()时出现错误AttributeError NoneType object has no attribute

a_cherry_blossoms的博客

06-04

6428

报错：AttributeError: 'NoneType' object has no attribute1.问题2.原因及分析2.1原因2.2分析我琢磨着可能是因为class值中的最后那个“空格”有问题。所以我就将我代码中的class值中的空格去掉了。3.总结就是你使用的find没有找到你需要的那个标签。问题的原因之一可能就是我上面所说的，然后动动脑筋，这里改改，那里改改，兴许就能像我这样把问题给改没了呢！ 1.问题使用BeautifulSoup的soup.find(“div”,class_="***"

使用BeautifulSoup，爬取网站小说名，并打印出来

野猫炫的博客

11-10

357

自动化测试基础实例爬取网站小说名，并打印出来 import requests from bs4 import BeautifulSoup r=requests.get('http://www.zongheng.com/rank/details.html?rt=5&d=1') soup=BeautifulSoup(r.text,"html5lib") a = soup.find_all('div',class_="rank_d_b_name") for i in a: print

Python3 Learning（五）BeautifulSoup爬取网页小说

我知道你很急,但是路要一步步走

01-25

321

# -*- coding:UTF-8 -*- from urllib import request from bs4 import BeautifulSoup if __name__ == "__main__": # 访问网址url download_url = 'https://www.qu.la/book/2125/10553318.html' # 请求访问者的信息...

爬虫报错AttributeError: ‘NoneType‘ object has no attribute ‘find_all‘

FHIceng的博客

01-10

467

经测试，无论哪级div都可以使用。上述代码为最高一级div，以下代码为最低一级div，效果相同未报错。总结：使用BeautifulSoup查找元素有误。class标签错写为id。

Python爬虫 object has no attribute ‘title’ 问题解决

weixin_44038564的博客

11-01

4412

Python爬虫 object has no attribute ‘title’ 问题解决在学习python爬虫时，想要获取title信息，遇到object has no attribute ‘title’ 的问题，仔细看并没有标点和拼写错误原代码 from urllib.request import urlopen from bs4 import BeautifulSoup as bf html=urlopen("http://www.baidu.com/") obj=bf(html.read()

爬虫项目实战中遇到‘NoneType‘ object has no attribute ‘children‘错误

g11458的博客

07-17

777

爬虫项目实战中遇到'NoneType' object has no attribute 'children'错误

[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

杨秀璋的专栏

11-08

1万+

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望

爬虫实战遇到的问题及解决汇总 / 爬虫原理介绍

Quest_sec的博客

03-14

2646

如何写一个爬虫程序爬取豆瓣内容？

完美解决爬虫时遇到的‘NoneType‘ object has no attribute ‘find‘或‘NoneType‘ object has no attribute ‘find_all‘问题

热门推荐

Wzp的博客

11-26

11万+

在网上看到了一个爬虫教程，就跟着学了起来，出现了点问题：‘NoneType’ object has no attribute ‘find’；问题说明我是一个刚入门的小白，刚研究了点爬虫，我觉得这个问题其实就是没有找到相应的html element（网页元素），所以没有相应的元素方法，所以报错“no attribute”。只要我们准确的找到相应的元素，就可以用BeautifulSoup中的方...

python3 nonetypefind_python-使用BeautifulSoup进行Web抓取返回NoneType

weixin_39928106的博客

12-22

334

我正在尝试使用BeautifulSoup抓取一个网站,并编写了以下代码：import requestsfrom bs4 import BeautifulSouppage = requests.get("https://gematsu.com/tag/media-create-sales")soup = BeautifulSoup(page.text, 'html.parser')try:conte...

bs4.beautiful soup 爬虫报错none type_P10-11《Python爬虫技术5天速成…》学习过程笔记8（超详细记录）...

weixin_35235724的博客

12-20

131

对应原视频第10集元组字典(上)&第11集字典(下)_集合 & 数据结构小结：本篇概要：(这两集的学习没遇到什么困难，都是知识点的学习了解，花时间多看视频就好，下面的内容基本只是概要。)P10--元组里只有一个元素时一定要在元素后面加一个英文逗号P11--数据结构小结--元组里只有一个元素时一定要在元素后面加一个英文逗号P10元组 Tuple第二点，比如tuple里边含有...

Python手记-10：Beautiful Soup爬取豆瓣经典书单

成屿的专栏

05-11

879

1.Beautiful Soup简介 Beautiful Soup名字来源于《爱丽丝梦游仙境》，是一个可以从HTML或XML文件中提取数据的Python库，当前版本4.4.0，Beautiful Soup 3目前已经停止开发，官方推荐使用Beautiful Soup 4（简称BS4），官文指路：https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/，不得不说Beautiful Soup官文的可读性秒爆lxml的。 Beautiful Soup最主要的功能是.

BeautifulSoup类用法总结

Yang's Blog

07-06

500

BeautifulSoup可以用来解析Requests库爬取的html代码一、BeautifulSoup的基本使用 import requests from bs4 import BeautifulSoup as bs def get_page(url): try: header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom.

requests爬虫遇到的问题

april_hare的博客

10-24

4825

1. 报错 ValueError: check_hostname requires server_hostname 首先检查梯子，如果有梯子要先关掉 2. 报错×2 AttributeError: 'Response' object has no attribute 'status' 参考网上文章尝试： ① 以管理员身份运行PyCharm→无效 ②改成Python3.8解释器 →已经设置正确，无效 ③ 配置文件→已经设置正确，无效（总结pycharm运行爬虫代码只显示Proces.