爬虫基础知识
1、爬虫简介:
- 爬虫的作用:帮助我们把网站信息快速提取并保存
- 爬虫的分类:
- 通用爬虫
- 聚集爬虫
- 爬虫的安全知识:目前来说,无明确法律规定,但每个官网都有自己的爬虫协议(网址后面加/robots.txt)
- 爬虫的爬取流程:
- 1、获取网页
- 2、提取信息
- 3、保存数据
2、爬虫必须了解的前端基础:
- HTML是超文本标记语言,主要负责写网页内容,CSS是用来装饰网页的,JS是用来写网页逻辑的。
- HTML中有两类标签:
- 1、一般标签:在标签内可以添加属性,在标签之间可以写其他标签或内容,如:h1标签
- 2、自闭合标签:只有一个标签,只能在标签内加属性,如:img标签
- 网页分类:静态网页(数据内容一般在HTML中),动态网页(通过js使网页连接数据库)
- 谷歌浏览器的“开发者工具”无疑是最方便的打开方式:打开谷歌浏览器,右击选择检查
- 谷歌浏览器查看网页源代码也非常方便:如上&#