python 爬虫博客园_python爬虫（一）

最新推荐文章于 2024-08-06 17:47:02 发布

weixin_39664962

最新推荐文章于 2024-08-06 17:47:02 发布

阅读量120

点赞数

文章标签： python 爬虫博客园

从我接触python爬虫开始，断断续续的学习到现在将将入门，已经过去了一个多月了，发现爬虫真的是一项浩瀚的工程，涉及的知识面非常广。我在这里主要是分享一下自己学的东西，同时做个总结。有写错或理解有误的地方欢迎各位大神指正。

爬虫的应用

你可以爬去想要的图片，爬取自己想看的视频等等你想要爬取的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取，这里要有一个信念：只要是网络上有的就一定能爬，没有爬不到的内容只有想不到的内容。爬虫往小的做，可以爬一些简单的文件，如爬豆瓣电影，往大的做，诸如百度搜索，谷歌搜索。

爬虫到底是什么

就像浏览器一样，我们通过浏览器打开网页，获取网页中我们想要的那部分数据。

浏览器打开网页的过程：

当你在浏览器中输入地址后，经过DNS服务器(域名系统服务器，用于解析请求网站的IP地址)找到服务器主机，向服务器发送一个请求，服务器返回一个响应给浏览器结果，包括html,js,css等文件内容，浏览器解析出来最后呈现给用户在浏览器上看到的结果，即网站页面。页面由html(超文本标记语言)构成，爬虫就是为了获取这些内容，通过一定的方式分析和过滤html代码，从中获取我们想要资源(文本，图片，视频.....)

浏览器的请求

咱们先说说url，中文名统一资源定位符，用来定位网络上各种资源的位置和获得这些资源的方法。

url的组成：

url = 请求协议 + 域名 + 资源路径 + 参数

请求协议：是指用什么样的方法来获得这些资源，最常用的即http协议和https协议，其次为ftp协议。

域名：服务器地址。

资源路径：在服务器的哪个位置，就和你在硬盘上存储一个文件，在c盘360文件夹的那哪个位置。可有可无。

参数：如果文件是分段存储，指的是可能的文件片段存储位置。或为客户端传入服务器的一些参数，可有可无。

在浏览器页面，右击鼠标选择检查，出现一个窗口。如图：

下部为打开的调试工具，element就是页面的元素，可以看作是页面的html，我们就是从这里提取一些数据的，比如可以用xpath-helper来查看这些数据，在python中也有xpath方法。

Network是表示当前网络传输的一些内容，可以实时看到浏览器与服务器的交互内容。上面这个图打开的就是浏览器发送请求并获得响应的一个展示，Headers包括了请求头，响应头，传输文件等，是http或https协议的一部分。

response其实就是浏览器获得的响应，基本上与elements相同。

weixin_39664962

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。