python爬虫返回none_初学python爬虫，bs4解析后print(bs,h1)返回None的原因和解决方案...

最新推荐文章于 2023-04-11 22:13:50 发布

weixin_39582569

最新推荐文章于 2023-04-11 22:13:50 发布

阅读量2.7k

点赞数 1

文章标签： python爬虫返回none

本文链接：https://blog.csdn.net/weixin_39582569/article/details/112940052

版权

本文主要探讨了在使用Python进行网络爬虫时，遇到BeautifulSoup解析返回None的情况。问题出在尝试读取`html`对象多次导致第二次读取为空。解决方案包括：1) 将数据保存到字符串中再解析；2) 使用`requests`库代替`urllib`。通过这两种方法，可以避免解析问题并得到正确结果。

摘要由CSDN通过智能技术生成

本人用的python3.7，代码在anacoda 3.7版和自装的bs4 4.9.1都成功测试。

初学爬虫，结果第一个BeautifulSoup的实例就运行失败，print(bs,h1)返回None，但原网页明明就有h1标签。

比如下面的代码。

from bs4 import BeautifulSoup

from urllib.request import urlopen

html = urlopen('http://www.pythonscraping.com/pages/page1.html')

print(html.read())

如果页面OK，返回的是

“b'\n

\nA Useful Page\n\n\n

An Interesting Title

\nLorem ipsum……”这样的。

但我们直接加bs4解析代码就会出问题，比如这样：

from bs4 import BeautifulSoup

from urllib.request import urlopen

html = urlopen('http://www.pythonscraping.com/pages/page1.html')

print(html.read())

#以下是新加的

bs = BeautifulSoup(html, 'html.parser')

print(bs.h1)

返回的是：

“b'\n

\nA Useful Page\n\n\n

An Interesting Title

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39582569

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫入门7：HTML报文解析获取网页基本信息

老猿Python

01-24

1326

本节介绍了使用BeautifulSoup的安装、导入和创建对象的过程，并可以将对应html报文通过BeautifulSoup对象展示和格式化，并进行相关信息访问。后续章节将介绍相关数据的基本使用方法。

Python爬虫入门8：BeautifulSoup获取html标签相关属性

老猿Python

01-30

3597

本节介绍了BeautifulSoup对象的主要属性，通过这些属性可以访问特定标签和内容。

参与评论您还未登录，请先登录后发表或查看评论

[Python]爬虫02：用Beautifulsoup抓取的网页中有br标签，返回字符串为None，先用replace去除网页中br再抓内容。

热门推荐

u012587107的博客

06-01

3万+

问题：用Beautifulsoup抓取网页，网页中含有br标签，抓取相关的内容结果是None。试了用字符串的replace函数替换br，还是返回None。试了用re正则替换br，提示返回类型错误。原因：br标签通常是单独使用，但Beautifulsoup只能抓取成对的标签，所以碰到br时返回None。办法：网页就是一个字符串，可以用字符串内建函数repalce先把网页中的br标签替换为空，再用Be...

python爬取指定多个网页数据_Python爬取网站，前几个有数据，之后返回None？

weixin_39864453的博客

11-24

340

想获取廖雪峰python教程网站的内容练练手，发现有的章节能返回数据，但到Python基础这一章开始返回的都是None，没明白问题出在哪，求教错误如下：Traceback (most recent call last):File "scraping_the_tutorial.py", line 36, in get_urls()File "scraping_the_tutorial.py", li...

Python爬虫：bs4解析，遇到NoneType怎么解决

weixin_50746407的博客

08-26

2029

Python爬虫，bs解析，出现NoneType错误怎么解决？

案例爬取（其二）:Error:11004、状态码200但是返回None——自己坑自己的步骤

python__reported的博客

05-01

3233

第二步：进行具体正文的提取，此时不止出现前面的代理问题：Error:10060,还时长出现Error:11004,和返回None 简直一脸懵逼，他妈的又全是英文，还不仅python错误，连window的各种错误都出来了！！！！！！！！！！！！！！！！！！！！各种查找都没有找到解决方法！！！各种尝试中发现当我一个一个输入url时，成功了！！！！但是进行遍历提取时却是状态码200 和返回No...

爬虫一些本该输出为中文的字段输出为none

m0_46458132的博客

02-10

2294

原因：提取内容时用了tag.string()，查看源码，发现标签内容为： <td data-v-428f2a6c> 综合 </td> 多了  解读：当tag 包含了多个子节点，tag 就无法确定 .string 方法应该调用哪个子节点的内容, .string 的输出结果是 None 解决：将tag.string()换成tag.t

初学python爬虫，bs4解析后print(bs,h1)返回None的原因和解决方案

DelisPhi的专栏

07-27

2277

本人用的python3.7，代码在anacoda 3.7版和自装的bs4 4.9.1都成功测试。初学爬虫，结果第一个BeautifulSoup的实例就运行失败，print(bs,h1)返回None，但原网页明明就有h1标签。比如下面的代码。 from bs4 import BeautifulSoup from urllib.request import urlopen html = urlopen('http://www.pythonscraping.com/pages/page1.html'

Python爬虫网页元素定位术，就在这篇博客中

梦想橡皮擦，专栏100例写作模式先行者，现象级专栏《Python 爬虫 100 例》作者、《滚雪球学 Python 专栏》原创者

04-15

2万+

🥇 基础用法如下所示 ⛳️ BeautifulSoup 模块的对象说明 🥇BeautifulSoup 对象 🥇Tag 对象 🥇NavigableString 对象 🥇Comment 对象 ⛳️ find() 方法和 find_all() 方法

scrapy/爬虫 xpath爬取返回结果为None

yxmGo

04-07

5292

有没有大哥能帮忙解决一下这个问题啊，非常感谢毕设整了个爬取旅游网站的旅游信息，自己坑自己- -。自己尝试爬取一下携程中的青岛自由行 https://vacations.ctrip.com/list/freetravel/sc.html?sv=%E9%9D%92%E5%B2%9B&st=%E9%9D%92%E5%B2%9B&from=do 链接是这个想爬取下面这块信息我根据cho...

报错解决：Python ‘NoneType‘ object is not subscriptable ，获取到的数据为None，需要保留数据

xff123456_的博客

04-11

3027

什么时候能上一次榜单啊？唉....

python 如果遇到爬取解析到得文本为 style="display: none" 没有找到相关内容该怎样解决修改文本属性获取新的内容

hou9876543210的博客

05-01

7170

在有的爬取网页内容时候有时候遇到text得内容为空如下图所示这应该就是display:none的问题，遇到这样问题要改变css的style中的内容这需要pyquery这个库下面图是原始f12中的disply：block 显示内容所以爬取时候内容一的到实际的内容为准也就是requests.get(url = " ",headers = " ").text 不说太多上代码下面有详...

爬虫中因主键为None导致 "Duplicate entry 失败

weixin_40809627的博客

04-19

265

问题爬虫报错 IntegrityError: (_mysql_exceptions.IntegrityError) (1062, “Duplicate entry ‘\xe6\x9c\x88\xe8\xbf\x9b\xe5\xae\x9d-2019-04-19–3-’ for key ‘PRIMARY’”) [SQL: u’INSERT INTO *********** 定位部分代码入库逻...

pythonnone无法显示出来,python代码运行，为何后面会显示一个none

weixin_32441957的博客

03-25

1926

这是因为，#如果直接调用，def里面就加print，如果调用的时候用print，则用return返回值，如下：def name2number(name):if name == 'rock':return 0elif name == 'paper':return 1elif name == 'scissor':return 2else:print('wrong name')print(name2nu...

python分布式编程_Python安全工具开发(一) :分布式爬虫初探

weixin_39992957的博客

11-29

147

本文由江sir原创投稿一叶知安，已向作者发放一定奖励。投稿参见：一叶知安征稿［欢迎踊跃投稿］前言写的一款百度爬虫采集工具，自己平时用的都是window下的一些exe工具，但在自己linux系统里还是有点不太方便，就自己写了一个百度爬虫工具，之后做一些批量扫描测试的时候可以发挥很大用处了多线程类没啥可说的，写好多了，都可以直接拿来用的，详细讲解下spider()函数网页分析在网页分析时主要是注意一下...

selenium爬虫遇见 display：none元素解决方法

m0_51344172的博客

02-28

2334

python初级爬虫遇到的问题

关于调用urllib.request.urlopen()返回空白内容问题解决

qq_43650119的博客

04-13

809

在爬取一个网页内容时我的程序什么也没有返回，并且一直处于urlopen运行状态未结束，最后发现原来是因为我的网络开着代理，把它关掉就能正常返回了 # -*- codeing = utf-8 -*- # @Time :2022/4/13 17:36 # @Author :xitingfork # @File :testUrllib.py # @software: PyCharm import urllib.request response = urllib.request.urlopen("http://w

数据处理（玩转python网络爬虫）

CRC的博客

10-17

1693

从网页上采集的数据后，大多数的数据是杂乱无章的，这时就需要对数据进行加工处理，去掉一些垃圾数据才能得到我们想要的数据。常用的方法有以下三种方法：字符串操作，正则表达式和第三方模块库。一、字符串操作（截取、替换、查找和分割）（1）截取：字符串[开始位置:结束位置:间隔位置] 开始位置为0，正数代表从左边位置开始，负数代表从右边开始，默认从0开始结束位置是被截取的字符串位置，默认取到字符...

python爬虫返回none_Python爬取网站，前几个有数据，之后返回None？