BeautifulSoup爬虫小结

个人感悟

爬虫的最终目的是:爬取网页中的信息,也就是html文档中的信息,可以下几步:

  1. 获取html文档
  2. 获取想要内容所在的标签
  3. 获取想要的内容(一般是标签中的文字信息 ,或者 a 连接 href)

代码

from bs4 import  BeautifulSoup
htmltext='''<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>选择器</title>
</head>
<body>
<!--测试class-->
<p class="p_class">1</p>
<p class="p_class">1</p>
<p class="p_class">1</p>
<p class="p_class">1</p>
<!--测试href-->
<a  id="mya" class="myaclass" href="https://www.baidu.com">CSDN博客<p><p>insert</p></p><p>dddd</p></a>
<a href="https://www.baidu.com" >2222</a>
<a href="https://www.taobao.com"><p>3333</p></a>
<a href="https://www.taobao.com">4444</a>
<!--测试id-->
<p id="myp1">1</p>
<p id="myp2">2</p>
<p id="myp3">3</p>
<p id="myp4">4</p>
<p id="myp5" class="lbj" >5</p>
</body>
</html>'''
soup=BeautifulSoup(htmltext,'lxml')
aTag=soup.select("a")[0]
#获取属性方法1
print(aTag["id"])
print(aTag["class"])#class 可能有很多因此返回的是list
print(aTag["href"])

#获取属性方法2
print(aTag.get("id"))
print(aTag.get("class"))
print(aTag.get("href"))
###string text 获取标签的文本内容.
print(aTag.text)  #标签下的所有文字包括子和孙子
print(aTag.string)#只能获得直接子标签的文字内容,如果标签内有多个内容,则为空NavigableString



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值