大家好,我是白菜胡萝丸子
人生苦短,Python当歌
什么是爬虫?
采集信息的程序一般称为网络爬虫,其行为一般是先"爬"到对应的网页上,再把需要的信息“铲”下来。
形象的比喻:采集程序就像一只辛勤的小蜜蜂,它飞到花(目标网页)上,采集花粉(需要的信息),经过处理(数据清洗、储存)变成蜂蜜(可用的数据)。
为什么要用Python写爬虫程序
先对于其他编程语言,它代码简洁,开发效率高,支持的模块多,相关的HTTP请求模块和HTTP解析模块非常丰富。
爬虫工具
- 谷歌浏览器
- pycharm 2021
HTTP是什么?
http协议,全称是HyperText Transfer Protocol,中文的意思是超文本传输协议。
https协议,是http协议加密的版本。https = http + ssl