网络爬虫
ClintonZero
热爱编程,热爱计算机,充满激情与活力
展开
-
网络爬虫
1.什么是网络爬虫网络爬虫是按照一定规则自动的抓取万维网信息的程序或脚本。通俗理解的话网络爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、抓取特定数据,然后使用一定规则提取有价值的数据。网络爬虫按照功能来分类的话主要分为四类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。通用网络爬虫通用爬虫又称全网爬虫,爬行对象从一些种子 URL 扩充到整个 Web,通用爬虫是搜索引擎...原创 2018-12-07 20:41:58 · 3429 阅读 · 0 评论 -
先修知识
上节回顾:上一节主要讲了爬虫基本概念、4大类型大家如果不清楚要去回顾哈由于本门课程将以python为主的爬虫项目介绍,所以大家需要对编程基础、python基本语法进行系统性学习。为什么选择python呢?我们拿几门语言来进行对比1.Java:生态圈很完善,是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。重构成本比较高,任何修改会导致代码大量改动。爬虫经常要修改采集代码...原创 2018-12-07 20:45:14 · 324 阅读 · 0 评论 -
web基础&常用工具包
在正式进入爬虫知识学习之前先给大家看一张图片。这张图片是网络爬虫的基础知识大全,可能不算全哈哈,不过如果学了这么多也应该够用。大家先仔细观摩一波,红旗部分的属于web前端基础知识,urllib除外(随便看看也行,最好保存到手机里,我以前就拿学习路线当壁纸的感觉可以督促学习哈哈)在这一节假设大家已经有了python基础,所以老司机要正式开车啦…W3C标准W3C,即万维网联盟,是 Web 技术...原创 2018-12-07 20:49:13 · 506 阅读 · 0 评论 -
Http协议
HTTP 协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,减少网络传输。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等,网络爬虫主要就是与http协议打交道。Https协议HTTPS协议:是HTTP协议的加密版本,在HTT...原创 2018-12-07 20:53:07 · 359 阅读 · 0 评论 -
Cookie介绍
大家之前用浏览器肯定遇到过这样一种情况,登录一个网站之后在之后的几天之内再次进入相同的网站会自动登录,网站会记住你的账户密码,为啥?接下来我们就来聊聊Cookie。在介绍之前讲个小案例,假如我去理发店理发,理发师最喜欢说的一句话就是”烫一下、染一下之类的然后叫你办卡”,今天我们先来聊聊办卡的事情。理发店办卡方式一般如下——给你一张会员卡,每次理完发付钱的时候都会叫你出示会员卡之后理发店自己有一个...原创 2018-12-07 20:55:35 · 677 阅读 · 0 评论 -
抓包工具介绍
由于是小白教学可能大家连chrome浏览器都没有安装,大家可以自行百度一下安装chrome浏览器,身边很多朋友用什么UC浏览器、360浏览器、QQ浏览器其实都是基于chrome内核。Chrome抓包工具Chrome 开发者工具是一套内置于 Google Chrome中的Web开发和调试工具,可用来对网站进行迭代、调试和分析。对着网页右键->检查(N)。然后就可以打开开发者选项。以下用图片...原创 2018-12-07 20:57:13 · 1028 阅读 · 0 评论 -
Fiddler介绍
Fiddler 是一种常见的抓包分析软件,通常我们可以利用 Fiddler 详细地对 HTTP 请求进行分析,并模拟对应的 HTTP 请求。打开百度搜索“Fiddler4”进行下载,或者搜索https://www.telerik.com/download/fiddler/fiddler4,之后会自动下载双击FiddlerSetup.exe即可完成安装,安装后在开始点开Fiddler4进行...原创 2018-12-07 20:58:17 · 207 阅读 · 0 评论 -
urllib库介绍
这节我们开设新的模块,也就是爬虫基础知识讲解,大家如果没学过python、前端基本知识请参考小白基础模块。接下来我们先来了解一下网络爬虫的工作过程1 网络爬虫工作过程以通用爬虫为例,如果不知道什么是通用爬虫去小白基础篇第一节学习。第一步我们先找到自己想要获取数据的地址路径也就是URL第二步将URL放入待抓取URL队列第三步读取待抓取URL队列中的URL,解析它的DNS,并且得到服务器的I...原创 2018-12-07 21:01:47 · 5687 阅读 · 0 评论