Python3 网络爬虫——爬取简单的网页

最新推荐文章于 2024-07-21 21:39:32 发布

周惟桢同学

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量5.7k

点赞数 2

分类专栏： python 文章标签： Python3 爬虫反爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/e_xiaoyu/article/details/80552469

版权

本文介绍如何使用Python3的urllib库爬取百度、有道和谷歌翻译的页面，探讨了HTTP Error 403的解决办法，并分析了爬取过程中发现的细节。

摘要由CSDN通过智能技术生成

本篇博客主要用于学习交流，用来记录自己学习过程中遇到的问题，所获得的感想，同时也为了方便以后的查找与回顾。另外也为了向各位前辈学习，纠正自己思考上的不足。文中可能会引用其他前辈的博客，文末会给出相应链接，侵删！

前言

自己一直想了解一些爬虫的知识及进行应用，从网上学习了一些前辈们的爬虫方法，用Python 3.6实现了简单的应用，爬取了百度翻译、有道翻译、谷歌翻译的页面。

1、爬虫定义

网络爬虫（又被称为Web Spider），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字，比如蚂蚁、自动索引、模拟程序或者蠕虫。如果把互联网比喻成一个蜘蛛网，Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址（即URL）来寻找网页的。

URL，即统一资源定位符。在WWW上，每一个信息资源都有一个统一且唯一的地址，该地址就叫URL（Uniform Resource Locator），它是WWW的统一资源定位标志，也就是指网络地址。

URL的一般格式为： protocol :// hostname[:port] / path / [;parameters][?query]#fragment

（1）protocol（协议）

指定使用的传输协议。最常用的是HTTP协议，它也是目前WWW中应用最广的协议。

（2）hostname：主机名。

是指存放资源的服务器域名系统(DNS)的主机名或 IP 地址。有时，在主机名前也可以包含连接到服务器所需的用

最低0.47元/天解锁文章

周惟桢同学

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Python3 网络爬虫——爬取简单的网页

本篇博客主要用于学习交流，用来记录自己学习过程中遇到的问题，所获得的感想，同时也为了方便以后的查找与回顾。另外也为了向各位前辈学习，纠正自己思考上的不足。文中可能会引用其他前辈的博客，文末会给出相应链接，侵删！前言自己一直想了解一些爬虫的知识及进行应用，从网上学习了一些前辈们的爬虫方法，用Python 3.6实现了简单的应用，爬取了百度翻译、有道翻译、谷歌翻译的页面。1、爬...
复制链接

扫一扫

专栏目录

周惟桢同学 CSDN认证博客专家 CSDN认证企业博客

码龄9年

3: 原创

33万+: 周排名

222万+: 总排名

1万+: 访问

: 等级

247: 积分

8: 粉丝

13: 获赞

2: 评论

78: 收藏

私信

关注

分类专栏

python 3篇
图像检测 1篇

最新评论

将.fits数据转换为.png图像
m0_68003076: 你这是保存?显示和保存都搞不明白
Python3 网络爬虫——爬取简单的网页
阿衰不衰啊: 只爬取文字不要其他的东西应该加什么代码？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。