一、准备工作
- 环境配置
- Anaconda3安装
- Google浏览器安装
二、网络爬虫
1>. 概念:
- 网络爬虫,又称网页蜘蛛、网络机器人。
- 网络爬虫是程序或者脚本。按照一定规则,自动抓取万维网信息和数据,保存到本地。
- 模拟浏览器去访问和获取互联网上信息的一个程序。
- 爬取就是代替人去模拟浏览器进行网络请求
2>. 分类:
- 通用网络爬虫 (百度、谷歌、雅虎...搜索引擎)
- 特点:关键字获取既定目标,覆盖率大
- 聚焦网络爬虫 (袜子、视频、小说、论文...)
- 特点:到互联网上有选择、有目的的抓取特定的目标和相关的主题内容
- 增量式网络爬虫 (随着更新爬取更新内容)
- 特点:只采取增量式个更新或者只爬行新产生或者是已经发生变化的网页
- 深层网络爬虫
- 表层网络爬虫:通过传统搜索引擎,以超链接可以达到静态网页为主的web页面
- 深层网络爬虫:大部分内容不能通过静态链接获取到的,隐藏在搜索表单之后的一些数据,有可能需要用户提交一些关键词才可以获得的web页面
三、 网页:
1>. 网页构成:
- HTML:Hyper Text Markup Language(超文本标记语言) 网页结构、框架 (▲)
- CSS:Cascading Style Sheets(层叠样式表) 外观、修饰网页
- JavaScript:(活动脚本语言) 交互、网页内容、功能
2>. 网页的HTML编码的查看
3>. HTML编码的认识:
- <> 标签特征:
- 分类: ①闭合标签:<></> ②自闭和标签:<> ③注释标签:<!--内容:英文叹号-->
- 标签属性
- 定位数据:点击目标信息,同「网页的HTML编码的查看」
- 标签层级关系:缩进。父标签-主题,子标签-内容;爬虫定位父标签,找到所有子标签爬取。
<html>
<head>
<title> 网络爬虫 </title>
</head>
<body>
<div>
<p> python与网络爬虫 </p>
<p> python:相同的缩进代表一个代码块 </p>
</div>
<div>
<ul>
<!--注释标签:超链接-->
<li><a href = "www.baidu.com"> 百度 </a> </li>
<li> Google </li>
</ul>
</div>
</body>
</html>
<!--标签解读:父标签html下有两个并列的子标签head、body。
head标签下有title标签;
body标签下有两个div标签,div标签有两个p标签,div标签下有ul标签,
ul标签下有一个注释标签和两个li标签-->
电脑新建文本文件,添加上面代码,更改后缀,点击文件,自动跳转浏览器
观察文件名称网络爬虫
- - -作业:发散思路,多去尝试,自己创建网页