开始简单的爬虫-CSDN博客

本文链接：https://blog.csdn.net/c1356498720/article/details/138293036

首先打开我们创建的第一个python文件。在文件的开头我们首先导入依赖。输入

这里我们爬取的是百度的源代码。我们使用一个变量response来接收我们爬取的结果，然后将结果打印出来。

右键鼠标，选择Run就可以运行了！

输出的结果如下：可以看到就是百度网页的源代码。

其实上面演示的就是一个最简单的爬虫了，但是不是所有网页我们都可以这么爬取的。因为很多网站设置了反爬虫，不想让我们去直接爬取他们的数据，比如我们把刚才代码中的网址换成豆瓣的电影栏目https://movie.douban.com，然后试试输出的结果。

可以看到结果报错了，我们关注的就是下面的HTTP Error 418，这代表网站已经发现我们是爬虫了，不允许我们进行数据的爬取。所谓魔高一尺道高一丈，我们也有方法去应对418这种情况。

既然我们被识别出来是爬虫了，我们就可以通过伪装成服务器请求的方式去获取网站的数据，这样就不会被发现啦。这里我们要补充一些关于浏览器的知识。接下来的知识有些硬核，可能有些难懂，做好准备哦。

首先是使用Chrome浏览器，在地址栏输入movie.douban.com/top250?start=0，打开豆瓣电影前250名
按下F12进入开发者模式。得到如下图所示：

可以看到，在Element栏下显示的就是网站的源代码。实际上的网站就是由这些代码写出来的，网页中的字、图片等都可以在源代码中找到它的位置。比如，我们要看肖申克的救赎这部电影在源代码中的位置，就可以点击源代码栏左上角的鼠标那里（下图中蓝色的地方），然后鼠标指向我们当前网页中肖申克的救赎的位置。然后你就可以发现，源代码自动跳转到了这个电影名称所在源代码的位置。

这个小tips的作用在于我们以后爬取网页时，常常需要解析网页的结构，从源代码中获取我们想要的数据。而通过这个方式可以轻易地帮助我们找到想要的数据在源代码中的位置。
接下来点击源代码栏中的Network，你可以看到许多条线吧？然后这时候刷新网页（网页地址栏左边的按钮就是哦），然后再点击源代码栏中红色的圈圈按钮。点击线条开始的部分，得到下图所示。
这时点击Name下的top250?start=0，就会得到下图所示：