网页三大特征:
1.网页都有自己唯一的URL(统一资源命令符)来进行定位
2.网页都使用HTML(定位超文本标记语言)来描述页面信息
3.网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据
爬虫的设计思路:
1.首先确定需要爬取的网页URL地址
2.通过HTTP/HTTPS协议来获取对应的HTML页面
3.提取HTML页面里有用的数据
a.如果是需要的数据就保存起来
b.如果是页面里的其他URL,那就继续执行第二步
爬虫流程:
1.先由urllib的request打开URL得到网页的HTML文档
2.浏览器打开网页源代码分析元素节点
3,通过BeautifulSoup或者正则表达式提取想要的数据
4.储存数据到本地磁盘或数据库(抓取,分析,储存)