自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy对接selenium(下载中间件的使用)

用scrapy对接selenium可以实现返回渲染好的页面,但是selenium是阻塞式的,也就是说,它每次只能进行一次请求,这样就会比较慢,所以并不推荐这种方法,今天这样做,只是为了练习一下下载中间件的使用,如果真要提取渲染好的页面,还是是用scrapy的Splash插件比较好用scrapy对接selenium,必须用到现在中间件,我们知道,下载中间件可以对请求,响应或是错误进行处理。我...

2018-05-31 16:04:49 4290

原创 用selenium爬取58同城租房信息(万级数据)

今天想做一个58同城的爬虫,然后到页面分析一下链接,发现58同城的链接的有些参数是由js动态生成的,然后我就想偷懒了。(当然其实去js文件中找到生成式并不难),但我就是不想去找。然后就想到了selenium,各种工具都常拿出来溜溜,才能用的好!python + selenium + (head_less)Chrome,然后用BeautifulSoup解析数据,完成了。 我们来一步步的看,首先...

2018-05-29 16:14:27 4383 9

原创 爬取链家网租房信息(万级数据的简单实现)

这不是一个很难的项目,没有ajax请求,也没有用框架,只是一个requests请求和BeautifulSoup的解析不过,看这段代码你会发现,BeautifulSoup不止只有find和fing_all用于元素定位,还有fing_next等其他的更简单的,你如果某事觉得xpath比BeautifulSoup更简单,那你真的应该结合我这个再把BeautifulSoup文档再看一遍,你会发现基于l...

2018-05-28 15:23:10 8319 2

原创 关于python3.0的类和类型的关系

一句话,在python3.0中,类就是类型,类型就是类。 在python中,平常你认为的一些是内置函数的如list(),str()等,其实都是一些内置的类,也就是说,你在使用它的时候都是创建该类的实例。python3.x所有的类都是新式类(隐式的继承了object元类),新式类是相对于python2.x的经典类说的(显示继承object,也可以是新式类)。新式类有一些变化,今天主要说的是新式...

2018-05-28 11:17:16 804

原创 抓取淘宝信息(scrapy框架,ajax请求的分析)

今天用scrapy框架抓取淘宝信息,因为淘宝的页面都是一个网关程序加载实现的,所以可以说每个页面的信息会随着每一次的刷新有所不同。当然这个我只是普及一下,跟我们今天的抓取关系不大首先今天的抓取主要的内容是分析ajax请求,然后构造请求。实现的话我用的是scrapy框架,但是用requests也是可以的,只不过抓取的会慢一点而已!所以着重讲的是分析ajax请求,OK?好了,废话有点多! 今...

2018-05-26 17:06:55 4533 1

原创 关于静态方法和类方法的一些理解

刚学类的时候,对类的对象调用不是很透彻,所以有很多疑问,就像这个静态方法和类方法,当时一头雾水! 所以今天我就想来说一下关于python的静态方法和类方法。 声明一个静态方法和类方法这里我们只会说明用装饰器,这是最常见的! 既然称之为方法,那么他们肯定都是在class语句内声明的def语句,只不过与其他方法有些不同而已。首先静态方法,声明方式class Xstaticlass...

2018-05-25 15:02:29 565

原创 scrapy的学习项目:每天都在进步,又是一个爬取图片的项目

我比较喜欢用写博客的方式来分析我的思路顺便分享我的代码爬虫文件:pic360spider.py# -*- coding: utf-8 -*-import scrapyimport jsonfrom urllib.parse import urlencodefrom scrapy.http import Requestfrom pic360.items import Pic360...

2018-05-23 14:54:39 735

原创 关于类,回顾1

最近几天想着看一下scrapy的源码,所以想着回顾一下类,对类进行一个更加深入的了解!!!python是一门面对对象的语言,但总是函数式编程能称之为面对对象吗?所以python定义了一个新的对象—-类,它是python面对对象程序设计的主要工具其实,虽然说python中的一切都是对象,但真正能体现python灵活好用的我觉得非类这个对象不可,它可以实现行为的定制,继承,修改;对python...

2018-05-23 14:31:28 209

原创 我觉得我写的爬图片的代码看着很舒服

闲着也是闲着: 目标网站:http://image.so.com 代码:# _*_ coding:utf-8 _*_import osimport requestsfrom time import sleepfrom urllib.parse import urlencodeheaders = { 'User-Agent': 'Mozilla/5.0 (Windo...

2018-05-22 11:52:48 744 1

原创 从底层分析,我们来彻底解决python乱码问题

这篇文章我们会从网络的底层开始分析编码问题,并结合requests库,实例演示,彻底解决python的乱码问题!直接开始,我们知道在网络世界中所有的数据都是二进制的形式进行传播的。web世界就是由0,1构成的世界,也就是说,我们每天从网上获取的所有的信息,在网路上传播,在到达你的电脑之前都是二进制数据,那么,然后通过编码显示我们人类能理解的文本! 一、从底层,数据在网络中传播时,具体如tc...

2018-05-21 11:46:37 2507 1

原创 对拉勾网职位信息的爬取(python)

通过发送post请求,对拉勾网的职位信息进行提取,很好的一个联系项目知识要求:request库发送post请求,csv库的使用,常用的反爬虫,对网页数据的解析等目地: 爬取拉勾网上python相关职位的信息 随便放一张图,输入python后,会跳出来职位,每页十五个职位,一共有三十页,那我们爬取的就是这三十页的所有职位信息。首先,我们打开fiddler,找出职位信息在哪个文件,每...

2018-05-20 12:02:42 350

原创 scrapy实战项目(简单的爬取知乎项目)

本项目实现了对知乎用户信息的爬取,并没有用数据库等,只是简单地用一些提取了一些字段然后存储在了一个csv文件中,但是同样可以实现无线爬取,理论上可以实现万级数据的爬取(当然取决于网速了)其实想爬取知乎网站是不需要进行登录的,通过一个个人账号就可以直接进行爬取了。事先准备:要求不多,其实掌握了基本的scrapy爬虫编写的方式就可以了,当然对python的基本语法要有了解,还有就是一定的逻辑处...

2018-05-17 12:14:01 5802 3

原创 scrapy进阶(CrawlSpider爬虫__爬取整站小说)

重点在于CrawlSpider的学习!!!!!!!!!!!!!**通过前面的学习我们可以进行一些页面的简单自动话爬取,对于一些比较规则的网站,我们似乎可以用Spider类去应付,可是,对于一些较为复杂或者说链接的存放不规则的网站我们该怎么去爬取呢,接下来的爬虫就是要解决这个问题,而且还可以高度的自动化爬取链接和链接内容**CrawlSpider类,是建立爬虫的另外一个类。*(顺便说一下,我们可以继

2018-05-09 16:25:25 10033 7

原创 scrapy初探(自制管道和多个管道合用)

写博客只是为了分享一些我踩过的坑,有些坑真的很让人奔溃,所以写上一篇我们讲了用scrapy的原生管道下载图片,这篇来讲讲用自定义的管道来下载图片(当然也是在继承了原生管道后对方法的重定义)什么是scrapy的管道(pipelines): 讲了这么多我还没有具体讲一下什么是scrapy里面的管道,按这里我就具体讲一下什么是pipelines,pipelines有什么作用在一个工程里面,在pipeli

2018-05-07 16:54:35 4956

原创 scrapy初探(抓取图片)

今天还是带来的是一个用scrapy抓取图片的实战项目这次用scrapy的图片管道进行,下一篇我会讲解用自制管道进行图片的下载哦!具体的步骤你们可以去官网看看我这里主要会将一些步骤和常见的坑。。。这次我们先将settings.py文件,因为这次的坑主要会在这个文件中,对于抓取链接什么的,在前两篇文章已经将的很清楚了。由于是要抓取图片,所以这次在settings中的相关设置会有些不一样。和往常一样,我们

2018-05-07 10:41:34 3015 3

原创 scrapy初探(抓取豆瓣top250)

这次我抓取的内容有:电影的title,director,评分,名言和详情页的电影简介,一共爬取五个内容。涉及主页的爬取和详情页的爬取。用scrapy可以很简单的实现这次爬取。此次涉及 的除了scrapy框架外还有正则表达式的编写等知识。豆瓣250 之前也爬取过,用的selenium自动化,这次用scrapy爬取一次,用于scrapy的初探首先建立一个project: ...

2018-05-06 14:16:50 1128 1

原创 初探scrapy(用scrapy爬取一部小说)

讲起来我跟笔趣看真有不解之缘,之前刚学习python时就是用笔趣看作为试验网站,现在刚接触scrapy框架也是用它来练手。今天说的是用scrapy爬取一步小说 假设你已经安装了scrapy!第一步:创建一个scrapy’项目 在命令行输入 scrapy startproject biqukanproject 这样就创建了一个scrapy项目第二步:在项目内创建一个爬虫 在项目命令行

2018-05-05 15:27:58 3705 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除