利用BeautifulSoup可以很简单的爬取网页上的内容。这个套件可以把一个网页变成DOM Tree
要使用BeautifulSoup需要使用命令行进行安装,不过也可以直接用python的ide。
基础操作 :
①
使用之前需要先从bs4中导入包:from bs4 import BeautifulSoup
②
使用的代码:soup = BeautifulSoup(res.text, 'html.parser')
括号中的第一个参数中的res是源网页,res.text是源网页的html,第二个参数'html.parser'是使用html的剖析器。、
③
可以使用select函数找出所有含有特定标签的HTML元素,例如:soup.select('h1')可以找出所有含有h1标签得到元素
它会返回一个list,这个list包含所有含'h1'的元素。
代码:
soup = BeautifulSoup(res.text, 'html.parser')
h1 = soup.select('h1')
for h in h1:
print(h)
#len = len(h1)
#for i in range(0,len):
# print(h1[i