一、爬虫分类:
a.通用爬虫
b、定向爬虫
一般我们都是以爬取定向爬虫为主,也就是我们在抓取界面数据的时候只抓取我们想要的数据
二、爬取数据流程
步骤一:使用requests 或 Selenium 抓取界面数据信息
步骤二:使用BeautifulSoup 或 Xpath 进行数据解析
步骤三:数据存储 可以保存到本地/或指定数据库 也可能会用到数据预处理操作
eg:时间日期格式转换,币种转换等
步骤四:数据分析(视情况而定)
步骤五:数据展示(视情况而定)
三:requests 和 Selenium的区别
1. requests 通过发送HTTP请求到服务器并获取响应 Selenium 则用于自动化浏览器操作,可实现JavaScript渲染和模拟用户交互
2.requests 优缺点:
速度快,因为不用模拟用户的动作访问浏览器 响应快 便于理解使用
缺点:不能进行用户交互
3.requests 优缺点:
交互能力强 可以处理一些复杂的web程序
缺点:相对于requests速度慢 资源消耗大 且需要给你要用的浏览器装驱动器