网络爬虫（一）上

2301_78080608

已于 2023-08-22 03:20:46 修改

阅读量831

点赞数 4

分类专栏：网络爬虫文章标签：爬虫

于 2023-08-21 16:14:17 首次发布

本文链接：https://blog.csdn.net/2301_78080608/article/details/132406150

版权

网络爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、准备工作

- 环境配置

Anaconda3安装
Google浏览器安装

二、网络爬虫

1>. 概念：

网络爬虫，又称网页蜘蛛、网络机器人。
网络爬虫是程序或者脚本。按照一定规则，自动抓取万维网信息和数据，保存到本地。
模拟浏览器去访问和获取互联网上信息的一个程序。
爬取就是代替人去模拟浏览器进行网络请求

2>. 分类：

通用网络爬虫（百度、谷歌、雅虎...搜索引擎）
1. 特点：关键字获取既定目标，覆盖率大
聚焦网络爬虫（袜子、视频、小说、论文...）
- 特点：到互联网上有选择、有目的的抓取特定的目标和相关的主题内容
增量式网络爬虫（随着更新爬取更新内容）
- 特点：只采取增量式个更新或者只爬行新产生或者是已经发生变化的网页
深层网络爬虫
- 表层网络爬虫：通过传统搜索引擎，以超链接可以达到静态网页为主的web页面
- 深层网络爬虫：大部分内容不能通过静态链接获取到的，隐藏在搜索表单之后的一些数据，有可能需要用户提交一些关键词才可以获得的web页面

三、网页：

1>. 网页构成：

HTML：Hyper Text Markup Language（超文本标记语言）网页结构、框架（▲）
CSS：Cascading Style Sheets（层叠样式表）外观、修饰网页
JavaScript：（活动脚本语言）交互、网页内容、功能

2>. 网页的HTML编码的查看

3>. HTML编码的认识：

<> 标签特征：
1. 分类： ①闭合标签：<></> ②自闭和标签：<> ③注释标签：
2. 标签 $\supseteq$ 属性
定位数据：点击目标信息，同「网页的HTML编码的查看」
标签层级关系：缩进。父标签-主题，子标签-内容；爬虫定位父标签，找到所有子标签爬取。

图1

<html>
<head>
    <title> 网络爬虫 </title>
</head>
<body>
    <div>
        <p> python与网络爬虫 </p>
        <p> python:相同的缩进代表一个代码块 </p>
    </div>
    <div>
        <ul>
            <!--注释标签：超链接-->
            <li><a href = "www.baidu.com"> 百度 </a> </li>
            <li> Google </li>
        </ul>
    </div>
</body>
</html>
<!--标签解读：父标签html下有两个并列的子标签head、body。
head标签下有title标签；
body标签下有两个div标签，div标签有两个p标签，div标签下有ul标签，
ul标签下有一个注释标签和两个li标签-->

电脑新建文本文件，添加上面代码，更改后缀，点击文件，自动跳转浏览器