爬虫（十一）：beautifulsoup

最新推荐文章于 2024-10-05 17:45:30 发布

Spider_man_

最新推荐文章于 2024-10-05 17:45:30 发布

阅读量267

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/chengmo123/article/details/84890045

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

Beautifulsoup

灵活方便的网页解析库，处理高效，支持多种解析器，利用它不用编写正则表达式即可方便的首先网页的信息提取

在这里插入图片描述

标签选择器

from bs4 import BeautifulSoup
import requests
def run():
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.4.3.17879"}
    response=requests.get('http://www.baidu.com',headers=headers)
    data=response.content.decode()
    soup=BeautifulSoup(data,'lxml')
    print(soup.title.string) #标签选择器
    print(soup.head)
    print(soup.p)#多个返回选择的第一个

if __name__ == '__main__':
    run()