爬虫小练习01—获取网站源码

最新推荐文章于 2024-08-14 11:00:39 发布

云晓-

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量2.4k

点赞数 1

分类专栏：爬虫文章标签：爬虫 python

本文链接：https://blog.csdn.net/one_bird_/article/details/122394549

版权

爬虫专栏收录该内容

15 篇文章 5 订阅

订阅专栏

第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/

在这里插入图片描述

第二步

引入requests库，使用request库发起请求

import requests
url = "https://bbs.zol.com.cn/"
r = requests.get(url)
r

此时若显示的状态码不是200，有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加Headers，在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本，伪装成一个普通的用户
User-Agent查找方式：（查找自己的电脑）
在这里插入图片描述

修改后代码：

import requests
url = 'http://bbs.zol.com.cn/'
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
r = requests.get(url, headers = headers)
r

在这里插入图片描述

第三步

# 查看网页的源代码
r.text

若我们采集到的网页源码中的中文部分没有正常解析，有可能是网页编码格式不正确

# 这里显示出的编码是我们解析网页使用的编码
r.encoding
# 使用appent_encoding  用软件推测网页编码
r.apparent_encoding
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding

然后重新查看网页源码

完整代码

import requests
# 访问的网址
url = 'http://bbs.zol.com.cn/'
# 字典格式的变量
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}
# 固定语法（和请求的网页相关的内容,都封装在了r中）
r = requests.get(url, headers = headers)
# 给encoding属性重新赋值, 用推测的编码去解析网页内容
r.encoding = r.apparent_encoding
#查看网页源代码
r.text
# 访问的消息头
r.headers
# 获取状态码
r.status_code