2024年Python爬虫基础爬取网页访问网页_python 爬虫网站(1)，2024Python面试

2401_84140080

于 2024-05-04 08:41:02 发布

阅读量931

点赞数 13

分类专栏：程序员文章标签： python 爬虫面试

本文链接：https://blog.csdn.net/2401_84140080/article/details/138434398

版权

程序员专栏收录该内容

144 篇文章 1 订阅

订阅专栏

本文分享了如何有效利用网络上的学习资源，强调了系统化学习的重要性，以Python爬虫为例，介绍了用户代理的概念，并推荐了一个包含技术交流、学习资源和面试辅导的IT行业学习社区。作者提倡通过团队合作加速技术成长。

摘要由CSDN通过智能技术生成

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。

分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

前段时间又被人问了会不会爬虫，然后感觉现在爬取数据好像还是挺有用的，所以就在网上找了课程学习了一下，利用Python对网站进行爬取和解析等等。原来使用过八爪鱼这个软件，不太需要有什么编程基础，但是也已经忘得差不错了，所以就想着学习利用Python进行爬取。

一、对爬虫的理解：

爬虫听上去似乎很高大上，其实简单一句话就是：模仿浏览器对网页进行访问并解析，进一步从中复制我们想要的信息，然后将其保存起来。

总共可以将其分为3个步骤：

爬取网页
解析数据
保存数据

这个时候我们就要想一想我们平时怎么使用浏览器浏览网页的，首先我们需要一个网址，然后回车后就会看到我们想看到的内容，然后利用鼠标点击进行点击相应的超链接进行进一步的访问。

接下来我们就要开启模拟浏览器访问数据了。

二、爬取网页

1.模仿浏览器

当浏览器对网址进行访问时，首先需要向服务器发送一个访问请求，并且将浏览器自身的一些信息发送给服务器，服务器接收到浏览器发送的信息之后开始检查，看这个“浏览器”是否有访问的权限，以及可以接受什么样的文件，然后服务器才能将信息发送到相应的浏览器上呈现给用户。

那么显而易见，我们现在要做的事情就是 模仿浏览器 给服务器发送信息：用户代理（User-Agent）！至于这个用户代理具体的含义以及用法还不是很清楚，但是可以简单的理解为我的浏览器的一个标志，表示我们是一个浏览器，而不是爬虫。

2.实例分析

下面以豆瓣为例，爬取前250名的高分电影的信息。其中需要导入一些包，包括网页解析、网页访问的和一些数据库操作的包。先来进行获取网页数据，对于解析和保存后面再慢慢学习。

（1）代码

# 导入所用到的包
from bs4 import BeautifulSoup      # 网页解析，获取数据
import re        # 正则表达式，进行文字匹配
import urllib.request,urllib.error    # 指定URL，获取网页数据
import xlwt      # 进行excel操作
import sqlite3   # 进行SQLite数据库操作

# 主函数
def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1.爬取网页
    datalist = getData(baseurl)
    # 2.解析网页
    # 3.保存数据

# 爬取网页函数
def getData(baseurl):
    datalist = []
    for i in range(0,10):
        n = str(i*25)   # 页数
        url = baseurl + n  # 每一页的网址
        html = askURL(url)  # 访问每一个网页的内容
        datalist.append(html)

    return datalist

# 得到指定一个url的网页内容函数
def askURL(url):
    # 模拟浏览器头部信息，向豆瓣服务器发送消息（伪装）
    # 用户代理，表示告诉豆瓣服务器，我们是什么类型的机器/浏览器（本质上告诉浏览器，我们可以接受什么水平的文件内容）
    head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"}
    
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)

    return html

if __name__ == "__main__":
    # 调用函数
    main()

（2）获取浏览器User-Agent

上面代码中需要说明的就是用户代理的那个变量head，可以直接在我们现有的浏览器中复制粘贴，打开一个网页，按F12键，然后点击Network，然后将网页刷新一下，点击红点暂停，点击一个请求，然后下拉到最后就会看到 User-Agent，直接复制粘贴过来即可！下面为操作截图。
1、打开网址
在这里插入图片描述

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

2401_84140080

关注

13
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
2024年Python爬虫基础爬取网页访问网页_python 爬虫网站(1)，2024Python面试

现在能在网上找到很多很多的学习资源，有免费的也有收费的，当我拿到1套比较全的学习资源之前，我并没着急去看第1节，我而是去审视这套资源是否值得学习，有时候也会去问一些学长的意见，如果可以之后，我会对这套学习资源做1个学习计划，我的学习计划主要包括规划图和学习进度表。分享给大家这份我薅到的免费视频资料，质量还不错，大家可以跟着学习前段时间又被人问了会不会爬虫，然后感觉现在爬取数据好像还是挺有用的，所以就在网上找了课程学习了一下，利用Python对网站进行爬取和解析等等。
复制链接

扫一扫