Python+BeautifulSoup抓取网页数据（网络爬虫）

最新推荐文章于 2024-08-06 23:23:32 发布

sunmimmy

最新推荐文章于 2024-08-06 23:23:32 发布

阅读量574

点赞数

分类专栏： Python 文章标签： python BeautifulSoup 网络爬虫

本文链接：https://blog.csdn.net/sunmimmy/article/details/80339538

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

安装requests，如果失败，需要进到python安装目录的Scripts下运行pip命令

pip install requests

安装bs4

pip install bs4

以百度为例，抓取第一行导航栏数据

import requests
from bs4 import BeautifulSoup
url='https://www.baidu.com/'
content=requests.get(url)
content.encoding='UTF-8'
soup=BeautifulSoup(content.text, 'html.parser')
menus=soup.find('div', id='u1')
for idx, menu in enumerate(menus.find_all('a')):
    print(menu.string)

别的网站获取网页内容只需要requests.get(url)，但百度比较特殊，输出的是乱码，所以需要转换编码方式，加上一句content.encoding='UTF-8'即可正常输出。

关于BeautifulSoup用法可参考https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html