Python 爬虫初识

1.什么是爬虫?
   互联网相当于一张蜘蛛网,我们的抓取互联网信息的程序就像是游走在蜘蛛网上的小虫子,所以称之为爬虫

2.为什么要爬虫/爬虫的作用
(1)获取信息,填充数据到自己的服务器(头条)
(2)获取关键信息,进行商业分析市场评估
(3)浏览器
3.爬虫的分类
(1)通用爬虫:全部获取
(2)聚焦爬虫:只取自己想要的
4.爬虫的准备
(1)firefox ,google
(2)charles
(3)了解http通信协议以及数据请求过程
5.互联网之http协议
    http 超文本传输协议
    https  自带的一种加密协议
    file:/  访问的是本地计算机上的资源
    ftp 共享协议,访问的是共享主机的文件资源
    http://www.baidu.com  http后面的内容为域名 域名的实质是:IP地址
    ipv4 :4组3位数字组成
    ip 分类 :静态IP 动态IP 42亿 全球IP
    ipv6
6.前端和后端的概念:前端:网页   APP
                                   后端:服务器  服务器分类有两种:(1)硬件服务器 理论上任何一台电脑都可以当做一个服务器
                                                                                           (2)软件服务器 服务器代码

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值