Python爬虫（一）——了解爬虫

最新推荐文章于 2024-04-05 09:57:02 发布

LinJie98

最新推荐文章于 2024-04-05 09:57:02 发布

阅读量542

点赞数

分类专栏： ● Python数据获取/处理文章标签：爬虫基本了解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w_linux/article/details/78306208

版权

● Python数据获取/处理专栏收录该内容

19 篇文章 2 订阅

订阅专栏

一、爬虫是什么

爬虫即网络爬虫，即将网上的资源抓取下来。比如在抓取一个网页，在这个网中发现一条道路，这个道路就是指向网页的超链接那就可以抓到该网的资源

二、浏览网页过程

浏览网页的过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器HTML,JS,CSS等文件，浏览器解析出来，便是用户看到的界面。

所以说用户看到的网页实质是用html构成，爬虫爬取的也就是这些内容，通过代码将代码过滤，实现对资源的获取

三、何为URL

统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL格式组成部分

1.第一部分是协议

http——超文本传输协议资源

https——用安全套接字层传送的超文本传输协议

ftp——文件传输协议

mailto——电子邮件地址

ldap——轻型目录访问协议搜索

file——当地电脑或网上分享的文件

news——Usenet新闻组

gopher——Gopher协议

telnet——Telnet协议

2.第二部分是存有该资源的主机IP地址（有时也包括端口号）

3.第三部分是主机资源的具体地址，比如文件名

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫（一）——了解爬虫

一、爬虫是什么爬虫即网络爬虫，即将网上的资源抓取下来。比如在抓取一个网页，在这个网中发现一条道路，这个道路就是指向网页的超链接那就可以抓到该网的资源二、浏览网页过程浏览网页的过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器HTML,JS,CSS等文件，浏览器解析出来，便是用户看到的界面。所以说用户看到的网页实质是用h
复制链接

扫一扫

专栏目录

LinJie98 CSDN认证博客专家 CSDN认证企业博客

码龄7年

Apache 顶级项目 Flink中文文档翻译贡献者

263: 原创

4965: 周排名

3万+: 总排名

252万+: 访问

: 等级

1万+: 积分

5万+: 粉丝

2339: 获赞

319: 评论

7026: 收藏

私信

关注

热门文章

分类专栏

最新评论

C++ sort排序函数用法
2301_77656683: 计数排序，虽然麻烦，但效率更高，关键时刻可考虑一下
利用暴力打表来规律
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8016263, 请多输出高质量博客, 帮助更多的人
C++（笔记）浅析vector容器的实例
Famoushake: 引用「Int i[5]={1,2,3,4,5}Vector<类型>vi(I,i+2);//得到i索引值为3」很不严谨的大小写，一下没反应过来；是“得到i索引值为2以前的值”，上菜鸟教程的一定要严谨啊
MySQL——约束(constraint)详解
恋喵大鲤鱼: 博主，文章该更新一下了，从 MySQL 8.0.16 开始，CREATE TABLE 允许所有存储引擎使用表和列 CHECK 约束的核心功能
MySQL——约束(constraint)详解
恋喵大鲤鱼: 少了默认值约束。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。