Python 爬虫初识

最新推荐文章于 2024-08-01 17:00:14 发布

莫悔

最新推荐文章于 2024-08-01 17:00:14 发布

阅读量365

点赞数

分类专栏： Python 文章标签： Python

本文链接：https://blog.csdn.net/ljj950408/article/details/81104486

版权

Python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

1.什么是爬虫？
互联网相当于一张蜘蛛网，我们的抓取互联网信息的程序就像是游走在蜘蛛网上的小虫子，所以称之为爬虫

2.为什么要爬虫/爬虫的作用
（1）获取信息，填充数据到自己的服务器（头条）
（2）获取关键信息，进行商业分析市场评估
（3）浏览器
3.爬虫的分类
（1）通用爬虫：全部获取
（2）聚焦爬虫：只取自己想要的
4.爬虫的准备
（1）firefox ,google
（2）charles
（3）了解http通信协议以及数据请求过程
5.互联网之http协议
    http 超文本传输协议
    https 自带的一种加密协议
    file:/ 访问的是本地计算机上的资源
    ftp 共享协议，访问的是共享主机的文件资源
    http://www.baidu.com http后面的内容为域名域名的实质是：IP地址
    ipv4 :4组3位数字组成
    ip 分类：静态IP 动态IP 42亿全球IP
    ipv6
6.前端和后端的概念：前端：网页   APP
                                   后端：服务器服务器分类有两种：（1）硬件服务器理论上任何一台电脑都可以当做一个服务器
                                                     （2）软件服务器服务器代码