Python爬虫入门

最新推荐文章于 2024-05-02 14:10:30 发布

骆驼0201

最新推荐文章于 2024-05-02 14:10:30 发布

阅读量143

点赞数

分类专栏： python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/hxy199421/article/details/86607793

版权

python 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1、什么是爬虫？

爬虫就是采集网络上数据的一段程序。爬虫程序通过请求url地址，根据响应的内容进行解析来采集数据。

2、环境

python3：3.6.8

requests：2.21.0

requests库是一个功能很强大的网络请求库，可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据

BeautifulSoup4：4.7.1

beautifulsoup4库是一个可以从HTML或XML文件中提取数据的Python库

3、固定套路

请求url，获取网页代码

分析提取出有用的内容

处理数据

4、一个简单的爬虫

import requests
from bs4 import BeautifulSoup

# url地址
url = 'http://www.runoob.com'
# 请求url
rep = requests.get(url)
rep.encoding = 'utf-8'

# 获取被抓取页面的html代码，并使用html.parser来实例化BeautifulSoup
soup = BeautifulSoup(rep.text, 'html.parser')

# 遍历页面上所有class=navto-nav的div
for name in soup.find_all('div', class_='navto-nav'):
    # 打印出div的text属性
    print(name.text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

骆驼0201

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫入门

1、什么是爬虫？爬虫就是采集网络上数据的一段程序。爬虫程序通过请求url地址，根据响应的内容进行解析来采集数据。 2、环境 python3：3.6.8 requests：2.21.0 requests库是一个功能很强大的网络请求库，可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据 BeautifulSoup4：4.7.1...
复制链接

扫一扫