回顾一下爬虫(上篇)

一、爬虫分类:
         a.通用爬虫
         b、定向爬虫
一般我们都是以爬取定向爬虫为主,也就是我们在抓取界面数据的时候只抓取我们想要的数据
二、爬取数据流程 
       步骤一:使用requests 或 Selenium 抓取界面数据信息   
        步骤二:使用BeautifulSoup 或 Xpath 进行数据解析  
        步骤三:数据存储   可以保存到本地/或指定数据库   也可能会用到数据预处理操作
                eg:时间日期格式转换,币种转换等
        步骤四:数据分析(视情况而定)
        步骤五:数据展示(视情况而定)
三:requests 和 Selenium的区别
       1. requests  通过发送HTTP请求到服务器并获取响应   Selenium 则用于自动化浏览器操作,可实现JavaScript渲染和模拟用户交互 
2.requests  优缺点:
                 速度快,因为不用模拟用户的动作访问浏览器 响应快  便于理解使用

        缺点:不能进行用户交互


3.requests  优缺点:
                交互能力强 可以处理一些复杂的web程序
        缺点:相对于requests速度慢   资源消耗大 且需要给你要用的浏览器装驱动器

 

                
     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值