实训项目(二)——去哪儿网模拟登陆

本节课主要是讲解如何模拟登陆去哪儿网,使用的工具是Chrome的开发者工具和requests库。两者都是之前学过的知识,这次我们把它们放在一起应用什么是模拟登陆?有些网站需要用户登录后才会有权限回去到所需要的信息,此时可以设计爬虫进行模拟登录怎么做到模拟登陆呢?把这句话补全就是: 怎么(让机器)模...

2018-07-14 13:24:37

阅读数 335

评论数 0

实训项目(一)——58同城出租信息抓取(上)

本节课将利用前面学习的基础知识,实现58同城出租信息抓取。爬虫整体流程58同城抓取流程进入成都小区页面,确定抓取目标 观察页面,获取各行政区的链接 分行政区抓取各小区的URL 进入各小区详情页面,抓取名字、价格、地址、年份等信息 抓取小区二手房页面第一页的价格,在管道中求该小区房价的平均价格 抓取...

2018-07-13 15:11:32

阅读数 475

评论数 0

大规模并发采集——分布式爬虫

当爬取内容过多,需要多机合作的时候,就需要用到分布式系统,这节课给大家讲解一下分布式爬虫的实现。分布式系统什么是分布式系统?分布式系统就是把一些计算机通过网络连接起来,然后协同工作协同工作需要解决两个问题:任务分解 把一个问题拆解成若干个独立任务,每个任务在一台节点上运行,实现多任务的并发执行节点...

2018-07-10 20:09:21

阅读数 2877

评论数 0

爬虫工程师进阶(八):去重与入库

数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。数据去重可以有效避免资源的浪费,所以数据去重至关重要。数据去重数据去重可以从两个节点入手:一个是URL去重。即直接筛选掉重复的URL;另一个是数据库去重。即利用数据库的一些特性筛选重复的数据。URL...

2018-07-10 17:39:53

阅读数 2156

评论数 1

爬虫工程师进阶(七):HTTP请求分析

Chrome浏览器相对于其他的浏览器而言,DevTools(开发者工具)非常强大。这节课将为大家介绍怎么利用Chrome浏览器的开发者工具进行HTTP请求分析Chrome浏览器讲解Chrome 开发者工具是一套内置于Google Chrome中的Web开发和调试工具,可用来对网站进行迭代、调试和分...

2018-07-10 17:38:57

阅读数 209

评论数 0

Scrapy的中间件

上一节我们学习怎么去保存爬取的结果,然而大多数时候裸奔的请求很容易被网站反爬技术识别,导致并不能获取到我们想要的数据,我们该怎么做呢?中间件就可以帮你解决这些事下载中间件(Downloader middlewares)Scrapy框架中的中间件主要分两类:蜘蛛中间件和下载中间件。其中最重要的是下载...

2018-07-10 14:30:34

阅读数 2750

评论数 0

Scrapy的项目管道

上一节已学习了选择器的应用,可是爬取到了结果该怎么处理呢?本节课主要介绍Scrapy框架的另一部分——Item管道,用于处理爬取到的数据Item管道(Item Pipeline)的介绍管道是什么Item管道(Item Pipeline):主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验...

2018-07-10 14:27:42

阅读数 379

评论数 0

Scrapy选择器的用法

Python爬虫(入门+进阶)     DC学院当我们抓取网页时,最常见任务就是从HTML源码中提取数据,可是怎么提取数据呢?当然就是用选择器了。本节课主要介绍CSS,Xpath,正则表达式,pyquery四种选择器。四大选择器Scrapy 提取数据有自己的一套机制。它们被称作选择器(seleto...

2018-07-10 11:03:43

阅读数 335

评论数 0

Scrapy的Request和Response详解

上节课我们学习了中间件,知道了怎么通过中间件执行反反爬策略。本节课主要介绍Scrapy框架的request对象和response对象通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序Request类...

2018-07-10 10:00:26

阅读数 3581

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭