用Python写网络爬虫

最新推荐文章于 2024-07-20 14:53:58 发布

故沉

最新推荐文章于 2024-07-20 14:53:58 发布

阅读量873

点赞数

分类专栏： # python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jesmine_gu/article/details/81026792

版权

python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

填完笨方法学Python的坑，继续填Python爬虫的坑。

识别网站所用的技术

安装检查网站构建的技术类型——builtwith模块

试了一下

第一次是看百度首页没出来啥东西，然后试了书上的网址发生错误。最后看了一下豆瓣的.

查了一下

piwik是PHP和MySQL的开放源代码的Web统计软件，它卡伊给出一些关于网站的实用统计报告，比如：网页浏览人数、访问最多的页面、搜索引擎关键词等等。

使用的jQuery是JavaScript框架

寻找网站所有者

安装所需的封装库 python-whois

import whois
print(whois.whois('baidu.com'))

查了一下百度

中间太长，省略一堆。具体意思一知半解，可以看到域名归属Beijing Baidu Netcom Science Technology Co., Ltd（北京百度网通科技），国家是CN（中国）

编写第一个网络爬虫

其实开始计划学习笨方法之前，已经跑了几个爬虫的例子，使用的是requests库，感受了一下，感觉很有趣，所以入坑了。

3种爬取网站的常见方法：

爬取网站地图

遍历每个网页的数据库ID

跟踪网页链接

注意爬虫陷阱：一些网站会动态生成页面，这样就会出现无限多的网页，访问的时候页面会无止境的链接下去。

解决方法：记录到达当前网页经过了多少链接（也就是深度），当达到最大的深度的时候，就不再向队列添加改网页中的链接。

发现一个问题：这本书上的链接我都打不开。后续看看是不是要换一本书继续学习。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
用Python写网络爬虫

填完笨方法学Python的坑，继续填Python爬虫的坑。识别网站所用的技术安装检查网站构建的技术类型——builtwith模块试了一下第一次是看百度首页没出来啥东西，然后试了书上的网址发生错误。最后看了一下豆瓣的.查了一下piwik是PHP和MySQL的开放源代码的Web统计软件，它卡伊给出一些关于网站的实用统计报告，比如：网页浏览人数、访问最多的页面、搜索引擎关键词等等。使用的jQuery是J...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

故沉 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。