1.爬虫基础——了解html&什么是爬虫

最新推荐文章于 2023-06-26 15:55:25 发布

Python伊甸园

最新推荐文章于 2023-06-26 15:55:25 发布

阅读量3.7k

点赞数 2

分类专栏： Python爬虫 Python 文章标签： Python Python爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42830697/article/details/102474659

版权

Python 同时被 2 个专栏收录

43 篇文章 12 订阅

订阅专栏

28 篇文章 43 订阅

订阅专栏

众所周知：我们上网浏览的网页，他们的本质是一个又一个html页面。那什么是html呢？可以这么理解，编写JAVA有JAVA的语言逻辑，编写Python有Python的语言逻辑，编写网页就需要遵从html的语言逻辑，而编写好了的html就可以显示出来我们所看到的网页了。

如下示例：

图1

图2

正如我们在上面所看到的，当我们查看https://www.baidu.com/这个网址的时候，浏览器返回一个网页，我们可以检查这个网页的html源码。（我们看到的图1就是由图2的html源码构成）换句话说，只要我们获取了任意网页的html源码，那么就能够显示出这样的页面，而网页的页面里面的所有信息均包含在html源码里面。那如何证实这一点呢？

我们可以看到：在百度页面里面是有新闻、hao123、地图、视频、贴吧、学术等等内容的，这个我们是可以在html源码里面找到的，这就证实了网页是由html源码进行编写的。

现在我们达成第一点共识：网页由html源码构成，并且html源码包含了网页页面的所有内容。

在达成第一点共识之后，爬虫的问题就变得比较简单了，我们用一句比较简单的话来阐述爬虫：在html页面上按照一定规则取出我们想要的数据。

如何理解呢？比如说百度页面，我们可以看到新闻、hao123、地图、视频、贴吧、学术等等内容，如果我们想要仅仅把这些文字给提取出来，其他的内容都不要，这个想法也就符合了我们所说的爬虫，接下来我们只需要利用我们的一些技术方法(规则)爬取就行了，这个就是爬虫了，但是这个爬取下来的含金量很低而已，不过不要灰心，有1才有2。

再举一个例子：比如豆瓣的影评数据，这个就比较有价值了。我们进入豆瓣的这个影评：https://movie.douban.com/review/9593388/

我们同样可以发现在这个页面内嵌套了所有的影评数据，当然还有一些其他数据，(实际上还有电影名、评论人、电影星级等等信息)在这里我们并没有展示。对于这样一个页面，我们就可以利用一定的规则来提取该页面的任意信息，OK，这就是爬虫了。

最后，留下一个思考题：我花费这么大力气去html页面提取信息干什么？我还不如直接打开原始页面进行复制粘贴呢，这不是一样的吗？

扫描二维码即可参与该课程，解锁更多爬虫知识：

Python伊甸园

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
1.爬虫基础——了解html&什么是爬虫

众所周知：我们上网浏览的网页，他们的本质是一个又一个html页面。那什么是html呢？可以这么理解，编写JAVA有JAVA的语言逻辑，编写Python有Python的语言逻辑，编写网页就需要遵从html的语言逻辑，而编写好了的html就可以显示出来我们所看到的网页了。如下示例：图1图2正如我们在上面所看到的，当我们查看https://www.baidu.com/这个网址的时候，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。