爬虫:
将数据从网上提取下来并保存的过程,分为三大步
下载源码
把包含数据的源码下载下来,需要学习requests模块的使用,这个过程是爬虫的难点,因为有反爬虫的措施、动态登录验证等
数据提取
从网页源码里面提取出需要的数据,这一步相对,简单只需要学习相关的库的使用,例如BueatifulSoup、re正则
数据保存
将提取到的数据储存下来,例如保存到Mysql数据库,只需要利用Mysql的python驱动模块pymsql连接到数据库,最简单
学习的过程由简到难,数据提取-->数据保存-->下载源码
先了解一下 requests 模块的用法,不重复造轮子,直接粘贴大神写的
requests库介绍:https://cuiqing