python 爬虫 博客园_python爬虫(一)

从我接触python爬虫开始,断断续续的学习到现在将将入门,已经过去了一个多月了,发现爬虫真的是一项浩瀚的工程,涉及的知识面非常广。我在这里主要是分享一下自己学的东西,同时做个总结。有写错或理解有误的地方欢迎各位大神指正。

爬虫的应用

你可以爬去想要的图片,爬取自己想看的视频等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取,这里要有一个信念:只要是网络上有的就一定能爬,没有爬不到的内容只有想不到的内容。爬虫往小的做,可以爬一些简单的文件,如爬豆瓣电影,往大的做,诸如百度搜索,谷歌搜索。

爬虫到底是什么

就像浏览器一样,我们通过浏览器打开网页,获取网页中我们想要的那部分数据。

浏览器打开网页的过程:

当你在浏览器中输入地址后,经过DNS服务器(域名系统服务器,用于解析请求网站的IP地址)找到服务器主机,向服务器发送一个请求,服务器返回一个响应给浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果,即网站页面。页面由html(超文本标记语言)构成,爬虫就是为了获取这些内容,通过一定的方式分析和过滤html代码,从中获取我们想要资源(文本,图片,视频.....)

浏览器的请求

咱们先说说url,中文名统一资源定位符,用来定位网络上各种资源的位置和获得这些资源的方法。

url的组成:

url = 请求协议 + 域名 + 资源路径 + 参数

请求协议:是指用什么样的方法来获得这些资源,最常用的即http协议和https协议,其次为ftp协议。

域名:服务器地址。

资源路径:在服务器的哪个位置,就和你在硬盘上存储一个文件,在c盘360文件夹的那哪个位置。可有可无。

参数:如果文件是分段存储,指的是可能的文件片段存储位置。或为客户端传入服务器的一些参数,可有可无。

在浏览器页面,右击鼠标选择检查,出现一个窗口。如图:

下部为打开的调试工具,element就是页面的元素,可以看作是页面的html,我们就是从这里提取一些数据的,比如可以用xpath-helper来查看这些数据,在python中也有xpath方法。

Network是表示当前网络传输的一些内容,可以实时看到浏览器与服务器的交互内容。上面这个图打开的就是浏览器发送请求并获得响应的一个展示,Headers包括了请求头,响应头,传输文件等,是http或https协议的一部分。

response其实就是浏览器获得的响应,基本上与elements相同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值