1.爬虫基础——了解html&什么是爬虫

众所周知:我们上网浏览的网页,他们的本质是一个又一个html页面。那什么是html呢?可以这么理解,编写JAVA有JAVA的语言逻辑,编写Python有Python的语言逻辑,编写网页就需要遵从html的语言逻辑,而编写好了的html就可以显示出来我们所看到的网页了。

如下示例:

图1
图2

正如我们在上面所看到的,当我们查看https://www.baidu.com/这个网址的时候,浏览器返回一个网页,我们可以检查这个网页的html源码。(我们看到的图1就是由图2的html源码构成)换句话说,只要我们获取了任意网页的html源码,那么就能够显示出这样的页面,而网页的页面里面的所有信息均包含在html源码里面。那如何证实这一点呢?

我们可以看到:在百度页面里面是有新闻、hao123、地图、视频、贴吧、学术等等内容的,这个我们是可以在html源码里面找到的,这就证实了网页是由html源码进行编写的。

现在我们达成第一点共识:网页由html源码构成,并且html源码包含了网页页面的所有内容。

在达成第一点共识之后,爬虫的问题就变得比较简单了,我们用一句比较简单的话来阐述爬虫:在html页面上按照一定规则取出我们想要的数据

如何理解呢?比如说百度页面,我们可以看到新闻、hao123、地图、视频、贴吧、学术等等内容,如果我们想要仅仅把这些文字给提取出来,其他的内容都不要,这个想法也就符合了我们所说的爬虫,接下来我们只需要利用我们的一些技术方法(规则)爬取就行了,这个就是爬虫了,但是这个爬取下来的含金量很低而已,不过不要灰心,有1才有2。

再举一个例子:比如豆瓣的影评数据,这个就比较有价值了。我们进入豆瓣的这个影评:https://movie.douban.com/review/9593388/

我们同样可以发现在这个页面内嵌套了所有的影评数据,当然还有一些其他数据,(实际上还有电影名、评论人、电影星级等等信息)在这里我们并没有展示。对于这样一个页面,我们就可以利用一定的规则来提取该页面的任意信息,OK,这就是爬虫了。

最后,留下一个思考题:我花费这么大力气去html页面提取信息干什么?我还不如直接打开原始页面进行复制粘贴呢,这不是一样的吗?


扫描二维码即可参与该课程,解锁更多爬虫知识:

 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值