python xpth和bs4提取img标签和src时的不同点

最新推荐文章于 2024-03-29 23:51:53 发布

LiAofann

最新推荐文章于 2024-03-29 23:51:53 发布

阅读量2.7k

点赞数 1

分类专栏： python 文章标签： python 开发语言

本文链接：https://blog.csdn.net/qq_46628194/article/details/123446062

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文介绍了在使用XPath和BeautifulSoup（BS4）爬取网页时，提取图片URL的不同处理方式。在BS4中，可以直接通过img标签的get()方法获取src属性，而XPath返回的是一个包含src值的列表，需要进一步索引获取单个链接。理解这些差异对于高效爬虫编程至关重要。

摘要由CSDN通过智能技术生成

用xpath爬取图片信息提取img标签中src内容时出错

1.用bs4提取src时用get()方法可以直接取出链接

	img = child_page.find("div",attrs={"class":"pic"}).find("img")
    src = img.get("src")
    #	输出结果
    #	http://img.netbian.com/file/2021/0922/cc33c63137086b834249910906b5bcd3.jpg

用该方法取出的src可以直接用requests.get()访问

2.用xpath提取src时用@src提取出的内容存在于列表中，当时用requests.get()直接访问就出错了，所以需要把列表中内容再取出来才能用

	src = div2.xpath("./div/div[1]/div/div/img/@src")
	print(src," ")
	#	纠错前的输出结果
	#	['https://p3-search.byteimg.com/img/labis/147e3a6e226d8717ef958087926548fa~tplv-tt-cs0:360:224.webp']

	src = div2.xpath("./div/div[1]/div/div/img/@src")
    print(src[0]," ")
    #	纠错后的输出结果
    #	https://p3-search.byteimg.com/img/labis/147e3a6e226d8717ef958087926548fa~tplv-tt-cs0:360:224.webp

综上，xpath和bs4还是有区别的，确实不明白错误原因的时候怎么搞也搞不出来，明白了之后都觉得这个小细节错误是不该犯的，嘿嘿~~

LiAofann

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python xpth和bs4提取img标签和src时的不同点

用xpath爬取图片信息提取img标签中src内容时出错1.用bs4提取src时用get()方法可以直接取出链接 img = child_page.find("div",attrs={"class":"pic"}).find("img") src = img.get("src") # 输出结果 # http://img.netbian.com/file/2021/0922/cc33c63137086b834249910906b5bcd3.jpg用该方法取出的src可以直接用r
复制链接

扫一扫