python 获取网页元素_Python爬虫--解析网页中的元素

最新推荐文章于 2024-04-27 16:14:21 发布

weixin_39762001

最新推荐文章于 2024-04-27 16:14:21 发布

阅读量2.4k

点赞数 1

文章标签： python 获取网页元素

本次学习目的：

学会筛选所需要的信息。

解析网页的步骤：

1.使用Beautiful解析网页

Soup = BeautifulSoup(html,'lxml')

描述要爬取的东西在哪里

message = Soup.select()

3.从标签中获得你要的信息

1.使用BeautifulSoup解析网页

Soup = BeautifulSoup(html, 'lxml)

这一句代码的意思是，解析一个html文件，使用lxml这个库，在Python中，解析一个网页有多种的库，比如：html.parse、lxml HTML、lxml XML和html5lib等，选择lxml的原因是这个库相对比较快速且稳定性较好。

2.描述要爬取的元素的位置

网页中对应元素的检查，Copy的格式有两种，selector和XPath。

区别如下：

CSS selector:body > div:nth-child(2) > div > div.col-md-9 > div:nth-child(2) > div:nth-child(1) > div > img

XPath:/html/body/div[1]/div/div[2]/div[2]/div[1]/div/img

上面两行代码是一个网页中的同一个元素的selector和XPath,可以看出，XPath单纯的指出了元素所在的位置，selector则同时标出了元素的样式。

3.筛选所需要的信息

筛选所需要的信息，在逻辑处理上进行操作即可完成，

最低0.47元/天解锁文章

weixin_39762001

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 获取网页元素_Python爬虫--解析网页中的元素

本次学习目的：学会筛选所需要的信息。解析网页的步骤：1.使用Beautiful解析网页Soup = BeautifulSoup(html,'lxml')描述要爬取的东西在哪里message = Soup.select()3.从标签中获得你要的信息1.使用BeautifulSoup解析网页Soup = BeautifulSoup(html, 'lxml)这一句代码的意思是，解析一个html文件，使用...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。