python爬虫从入门到放弃(一)- 认识爬虫

什么是爬虫

百度百科里的解释是这样的:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

爬虫就是一种可以按照一定规律自动抓取信息程序或脚本。

再简单一点就是:智能获取网页中信息的工具。

爬虫可以干什么

万物皆可爬

文本、音频、视频、图片、、、、、等等

爬虫怎么工作

我们在浏览网页的时候,有一个基本的流程如下:

用户输入网址 经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,然后浏览器解析出来将 HTML、JS、CSS 等文件中包含的信息汇总起来展示给用户。

PS:这里的信息就可以分为有用信息和无用信息,如果你想爬取的是知乎上某电影的评论内容,那评论的文本对于你就是有用信息,而评论框的样式等信息就对你是无用信息。

OK,现在了解了浏览网页的基本流程之后,可以得出一个结论,用户看到的网页实质是由 HTML 代码构成的

那爬虫爬取网页信息实际上就是在HTML代码中寻找有用信息,并获取的过程。

爬虫通过分析、筛选、过滤HTML代码中的内容,来获取我们想要得到的有用信息(文本、音频、视频、图片、、、、、等等)。

URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。


基本的爬虫只是的入门就是这些了~

从入门到放弃




  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ghost__9

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值