python 获取网页元素_Python爬虫--解析网页中的元素

本次学习目的:

学会筛选所需要的信息。

解析网页的步骤:

1.使用Beautiful解析网页

Soup = BeautifulSoup(html,'lxml')

描述要爬取的东西在哪里

message = Soup.select()

3.从标签中获得你要的信息

1.使用BeautifulSoup解析网页

Soup = BeautifulSoup(html, 'lxml)

这一句代码的意思是,解析一个html文件,使用lxml这个库,在Python中,解析一个网页有多种的库,比如:html.parse、lxml HTML、lxml XML和html5lib等,选择lxml的原因是这个库相对比较快速且稳定性较好。

2.描述要爬取的元素的位置

网页中对应元素的检查,Copy的格式有两种,selector和XPath。

区别如下:

CSS selector:body > div:nth-child(2) > div > div.col-md-9 > div:nth-child(2) > div:nth-child(1) > div > img

XPath:/html/body/div[1]/div/div[2]/div[2]/div[1]/div/img

上面两行代码是一个网页中的同一个元素的selector和XPath,可以看出,XPath单纯的指出了元素所在的位置,selector则同时标出了元素的样式。

3.筛选所需要的信息

筛选所需要的信息,在逻辑处理上进行操作即可完成,

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值