python自动化爬虫框架_python接口自动化测试十七:使用bs4框架进行简单的爬虫

安装:beautifulsoup4

frombs4 importBeautifulSoup

yoyo =open('yoyo.html', 'r')# 以读的方式打开“yoyo.html”文件

# print(yoyo.read())      # 此方法打开的是一个字符串,内容没有层级结构

# yoyo.close()

soup

=BeautifulSoup(yoyo, 'html.parser')# 此时打印出来的效果与.read的一致

# print(soup.prettify())  # 此时打印出来为有层级的html格式

# 通过soup对象,去找tag标签

head

=soup.head

print(head)#

yoyo

ketang

# 当有多个标签重名的时候,会从上往下找,找到第一个后就结束,不再往下继续找

# 通过soup对象,去找p标签

p =soup.p

print(p)#

class="title">yoyoketang

# 获取string对象:通过标签属性获取

s =p.string

print(s)# yoyoketang

# 获取注释对象,(此处的注释在b标签)

b_str

=soup.b.string

print(b_str)#

-- Hey, this in comment!--

print(type(b_str))# Comment类型

# 标签属性

from bs4 import BeautifulSoup

yoyo = open('yoyo.html', 'r') # 以读的方式打开“yoyo.html”文件

# print(yoyo.read()) # 此方法打开的是一个字符串,内容没有层级结构

# yoyo.close()

soup = BeautifulSoup(yoyo, 'html.parser')

p = soup.p # p 标签

print(p) #

yoyoketang

# 获取标签属性

value = p.attrs['class'] # tag对象,可以当成字典取值

print(value) # ['title'] list属性

# calss属性有多重属性,返回的值是list

# class="clearfix sdk 十分广泛广泛的

# value = p.attrs['class']

# print(value) # ['clearfix', 'sdk', '十分广泛广泛的']

# 查找所有文本

from bs4 import BeautifulSoup

yoyo = open('yoyo.html', 'r') # 以读的方式打开“yoyo.html”文件

# print(yoyo.read()) # 此方法打开的是一个字符串,内容没有层级结构

# yoyo.close()

soup = BeautifulSoup(yoyo, 'html.parser')

# 获取body对象内容

body = soup.body

print(body)

# 只获取body里面的文本信息

get_text = body.get_text() # 获取当前标签下的,所有子孙节点的string

print(get_text)

# 查找所有的标签对象

from bs4 import BeautifulSoup

yoyo = open('yoyo.html', 'r') # 以读的方式打开“yoyo.html”文件

# print(yoyo.read()) # 此方法打开的是一个字符串,内容没有层级结构

# yoyo.close()

soup = BeautifulSoup(yoyo, 'html.parser')

# 查找所有的a标签对象

all = soup.find_all('a')

print(all) # 返回的list

# [fiddler, python, python]

# 打印所有的a标签

for i in all:

print(i)

# fiddler

# python

# python

# 查找所有的class标签对象

all = soup.find_all(class_="sister") # class是关键字,此处须改为“class_”

print(all) # 返回的list

# [fiddler, python, python]

# 打印所有的class_="sister"标签

for i in all:

print(i)

# fiddler

# python

# python

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值