1、导入第三方库:
在这个网址:https://pypi.org,搜索需要导入库的名称
弹出如图所示界面,将pip install requests复制粘贴到Python中,运行就可以导入三方库
1、网络请求
urllib模块比较老,现在基本的通用requests模块
案例:爬搜狗网络数据,可以取一个输入的数值
2、关于网站相关的知识
3、学习用的数据源网站:github,kaggle
4、爬虫的原理:
模拟计算机对服务器发起request请求
接受服务端的request内容并解析,提取所需信息
五、爬虫分类:多页面爬虫和跨页面爬虫
多页面爬虫流程:
5.1、手动翻页,观察各网页的URL构成特点
5.2 根据URL列表循环取出URL
5.3 定义爬虫函数
5.4 循环调用爬虫函数,储存数据
5.5 循环完毕,结束爬虫程序
跨页面爬虫流程:
定义爬取函数爬取列表页所有专题的URL
将专题URL存入列表中
定义爬取详情页数据函数
进入专题详细页面爬取详细页数据
储存数据,循环完毕,结束爬取程序
6、HTML是网页的基础构架,用各种标签来表示内容