网络爬虫(一)上

一、准备工作

- 环境配置

  • Anaconda3安装
  • Google浏览器安装

二、网络爬虫

1>. 概念:

  • 网络爬虫,又称网页蜘蛛、网络机器人。
  • 网络爬虫是程序或者脚本。按照一定规则,自动抓取万维网信息和数据,保存到本地。
  • 模拟浏览器去访问和获取互联网上信息的一个程序。
  • 爬取就是代替人去模拟浏览器进行网络请求

2>. 分类:

  1. 通用网络爬虫 (百度、谷歌、雅虎...搜索引擎)
    1. 特点:关键字获取既定目标,覆盖率大
  2. 聚焦网络爬虫 (袜子、视频、小说、论文...)
    • 特点:到互联网上有选择、有目的的抓取特定的目标和相关的主题内容
  3. 增量式网络爬虫 (随着更新爬取更新内容)
    • 特点:只采取增量式个更新或者只爬行新产生或者是已经发生变化的网页
  4. 深层网络爬虫
    • 表层网络爬虫:通过传统搜索引擎,以超链接可以达到静态网页为主的web页面
    • 深层网络爬虫:大部分内容不能通过静态链接获取到的,隐藏在搜索表单之后的一些数据,有可能需要用户提交一些关键词才可以获得的web页面                   

三、 网页:

1>. 网页构成:

  • HTML:Hyper Text Markup Language(超文本标记语言) 网页结构、框架 (▲)
  • CSS:Cascading Style Sheets(层叠样式表) 外观、修饰网页
  • JavaScript:(活动脚本语言) 交互、网页内容、功能

2>. 网页的HTML编码的查看

3>. HTML编码的认识:

  • <> 标签特征:
    1. 分类: ①闭合标签:<></> ②自闭和标签:<> ③注释标签:<!--内容:英文叹号-->
    2. 标签\supseteq属性
  • 定位数据:点击目标信息,同「网页的HTML编码的查看」
  • 标签层级关系:缩进。父标签-主题,子标签-内容;爬虫定位父标签,找到所有子标签爬取。
    图1
<html>
<head>
    <title> 网络爬虫 </title>
</head>
<body>
    <div>
        <p> python与网络爬虫 </p>
        <p> python:相同的缩进代表一个代码块 </p>
    </div>
    <div>
        <ul>
            <!--注释标签:超链接-->
            <li><a href = "www.baidu.com"> 百度 </a> </li>
            <li> Google </li>
        </ul>
    </div>
</body>
</html>
<!--标签解读:父标签html下有两个并列的子标签head、body。
head标签下有title标签;
body标签下有两个div标签,div标签有两个p标签,div标签下有ul标签,
ul标签下有一个注释标签和两个li标签-->

电脑新建文本文件,添加上面代码,更改后缀,点击文件,自动跳转浏览器

图2

观察文件名称网络爬虫

图3

 - - -作业:发散思路,多去尝试,自己创建网页

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值