第三课 Python爬虫Beautifulsoup4模块的使用



Beautifulsoup作用:

将网页(非结构化内容)转化成结构化内容

.text取得bs对象的文字内容(去除HTML标签)

现在令一个新的字符串:

html sample ='

Hello World!

This is link1

This is link2'

将字符串转化为bs对象:

soup = BeautifulSoup(html_sample)



去除警告信息的方法:

原因:因为没有指定“剖析器”

解决:

soup = BeautifulSoup(html_sample,'html.parser')



找寻特定元素:

#使用select找出含有h1标签的元素

alink = soup.select('h1')

print(alink)



Print(alink[0])

输出的是内容,没有中括号



print(alink[0].text)

输出标签内的文字



#使用select找出含有a标签的元素

alink = soup.select('a')

print(alink)



#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法

alink = soup.select('#title')

print(alink)



#使用select找出class="link"的内容(class前面需要加上.)

alink = soup.select('.link')

print(alink)



我们看到输出多个结果,以列表的形式存储

相信这样大家就会更加清晰明白了:



循环输出:

for link in alink:

print(link)



.text的利用



获取a标签的href属性:

for link in alink:

print(link['href'])



会把href等属性包装成一个字典故很方便地取到数据!

取属性值:

html_sample2 = ' hello world! hello world2!'

soup2 = BeautifulSoup(html_sample2,'html.parser')

print(soup2.select('a')[0]['id'])

print(soup2.select('a')[1]['id'])



注:本文属于原创文章,转载请注明版权!

CSDN博客主页:http://blog.csdn.net/dyboy2017

Github开源项目:https://github.com/dyboy2017/spider


Beautifulsoup作用:

将网页(非结构化内容)转化成结构化内容

.text取得bs对象的文字内容(去除HTML标签)

现在令一个新的字符串:

html sample ='

Hello World!

This is link1

This is link2'

将字符串转化为bs对象:

soup = BeautifulSoup(html_sample)



去除警告信息的方法:

原因:因为没有指定“剖析器”

解决:

soup = BeautifulSoup(html_sample,'html.parser')



找寻特定元素:

#使用select找出含有h1标签的元素

alink = soup.select('h1')

print(alink)



Print(alink[0])

输出的是内容,没有中括号



print(alink[0].text)

输出标签内的文字



#使用select找出含有a标签的元素

alink = soup.select('a')

print(alink)



#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法

alink = soup.select('#title')

print(alink)



#使用select找出class="link"的内容(class前面需要加上.)

alink = soup.select('.link')

print(alink)



我们看到输出多个结果,以列表的形式存储

相信这样大家就会更加清晰明白了:



循环输出:

for link in alink:

print(link)



.text的利用



获取a标签的href属性:

for link in alink:

print(link['href'])



会把href等属性包装成一个字典故很方便地取到数据!

取属性值:

html_sample2 = ' hello world! hello world2!'

soup2 = BeautifulSoup(html_sample2,'html.parser')

print(soup2.select('a')[0]['id'])

print(soup2.select('a')[1]['id'])



注:本文属于原创文章,转载请注明版权!

CSDN博客主页:http://blog.csdn.net/dyboy2017

Github开源项目:https://github.com/dyboy2017/spider


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值