Beautifulsoup
灵活方便的网页解析库,处理高效,支持多种解析器,利用它不用编写正则表达式即可方便的首先网页的信息提取
标签选择器
from bs4 import BeautifulSoup
import requests
def run():
headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.4.3.17879"}
response=requests.get('http://www.baidu.com',headers=headers)
data=response.content.decode()
soup=BeautifulSoup(data,'lxml')
print(soup.title.string) #标签选择器
print(soup.head)
print(soup.p)#多个返回选择的第一个
if __name__ == '__main__':
run()
获取名称
print(soup.tiltle.name)
输出title
获取属性
soup.title[‘name’] #获取属性
获取内容
soup.title.string
嵌套选择:用点
soup.head.title.string
子节点
返回一个数组
返回一个索引