2017年12月_果冻果

原创爬虫入门【11】Pyspider框架入门—使用HTML和CSS选择器下载小说

开始之前首先我们要安装好pyspider，可以参考上一篇文章。从一个web页面抓取信息的过程包括：1、找到页面上包含的URL信息，这个url包含我们想要的信息2、通过HTTP来获取页面内容3、从HTML中提取出信息来4、然后找到更多的URL，回到第2步继续执行~选择一个开始的URL我推荐一部小说给大家《恶魔法则》。今天我们从网上将这部小说的内容按照章节下载下来。小说目录的url...

2017-12-12 21:02:00 153

原创爬虫入门【10】Pyspider框架简介及安装说明

Pyspider是python中的一个很流行的爬虫框架系统，它具有的特点如下：1、可以在Python环境下写脚本2、具有WebUI，脚本编辑器，并且有项目管理和任务监视器以及结果查看。3、支持多种数据库4、支持定义任务优先级，自动重试链接。。。5、分布式架构等等优点。pyspider的设计基础是：以python脚本驱动的抓取环模型爬虫。教程: http://docs.pyspide...

2017-12-11 21:38:00 142

原创【Python基础】装饰器的解释和用法

装饰器的用法比较简单，但是理解装饰器的原理还是比较复杂的，考虑到接下来的爬虫框架中很多用到装饰器的地方，我们先来讲解一下。函数我们定义了一个函数，没有什么具体操作，只是返回一个固定值请注意一下缩进def sample(): return 1print(sample())作用域函数内部的变量和函数外的变量是不同的我们看一下下面的例子，locals()和globals()方法会...

2017-12-10 15:18:00 87

原创爬虫入门【9】Python链接Excel操作详解-openpyxl库

Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库。现在大多数用的都是office2010了，如果之前之前版本的可以使用xlrd读，xlwt写，这里就不介绍了。入门范例from openpyxl import Workbookwb=Workbook()#创建一个工作簿ws=wb.active#获取工作的激活工作表ws['A1...

2017-12-09 12:36:00 216

在爬取一些比较友好的网站时，仍然有可能因为单位时间内访问次数过多，使服务器认定为机器访问，导致访问失败或者被封。如果我们使用不同的ip来访问网站的话，就可以绕过服务器的重复验证，使服务器以为使不同的人在访问，就不会被封了。如何获取动态ip网络上有很多提供代理ip的网站，我们经常使用的一个是西刺免费代理ip，url='http://www.xicidaili.com/'我们来看一下这个网站的构...

2017-12-08 21:02:00 1160

原创爬虫实战【12】使用cookie登陆豆瓣电影以及获取单个电影的所有短评

昨天我们已经实现了如何抓取豆瓣上的热门电影信息，虽然不多，只有几百，但是足够我们进行分析了。今天我们来讲一下如何获取某一部电影的所有短评论信息，并保存到mongodb中。反爬虫豆瓣设置的反爬虫机制是比较简单的，我们可以通过selenium模拟浏览器登陆这种终极办法来绕过，但是更加有效率的方法是设置请求头信息的cookie，是豆瓣认为在访问的就是一个用户，而不是机器。【插入图片，我的cook...

2017-12-07 20:20:00 1098

原创爬虫实战【11】Python获取豆瓣热门电影信息

之前我们从猫眼获取过电影信息，而且利用分析ajax技术，获取过今日头条的街拍图片。今天我们在豆瓣上获取一些热门电影的信息。页面分析首先，我们先来看一下豆瓣里面选电影的页面，我们默认选择热门电影，啥都不点了。【插入图片，豆瓣热门电影页面】在选电影这个框中其实有很多标签的，这个其实可以在url设置，后面讲，现在就用热门好了。下面每部电影罗列出来，包括电影封面，评分，电影名称等信息。最下...

2017-12-05 22:33:00 305

原创爬虫实战【10】利用Selenium自动登陆京东签到领金币

今天我们来讲一下如何通过python来实现自动登陆京东，以及签到领取金币。如何自动登陆京东？我们先来看一下京东的登陆页面，如下图所示：【插入图片，登陆页面】登陆框就是右面这一个框框了，但是目前我们遇到一个困呐，默认的登陆方式是扫码登陆，如果我们想要以用户民个、密码的形式登陆，就要切换一下。我们看一下这两种登陆方式是如何切换的，通过浏览器的元素检查，我们看一下两个标签。【插入图片，两种...

2017-12-04 22:23:00 167

原创 Python基础——原生数据类型（字典，列表，元组，字符串）

字典Dictionary字典定义了键值对的1对1管理。1、定义字典请看下面的栗子，我们先创建了一个具有两个元素的字典，每对都是key：value的形式。我们能通过key得到value，但是不能通过value得到key。还可以通过get方法得到对应key的value。d={'server':'mpilgrim','database':'master'}d{'database': 'm...

2017-12-04 20:38:00 237

原创爬虫实战【9】Selenium解析淘宝宝贝-获取宝贝信息并保存

通过昨天的分析，我们已经能到依次打开多个页面了，接下来就是获取每个页面上宝贝的信息了。分析页面宝贝信息【插入图片，宝贝信息各项内容】从图片上看，每个宝贝有如下信息；price，title，url，deal amount，shop，location等6个信息，其中url表示宝贝的地址。我们通过查看器分析，每个宝贝都在一个div里面，这个div的class属性包含item。而所有的item...

2017-12-02 17:10:00 261

原创爬虫实战【8】Selenium解析淘宝宝贝-获取多个页面

作为全民购物网站的淘宝是在学习爬虫过程中不可避免要打交道的一个网站，而是淘宝上的数据真的很多，只要我们指定关键字，将会出现成千上万条数据。今天我们来讲一下如何从淘宝上获取某一类宝贝的信息，比如今天我们以“手机”作为关键词，举个例子。分析页面的源代码【插入图片，淘宝手机页面示意】上面是搜索框，下面显示了很多宝贝信息，最下面是翻页的控制按钮。【插入图片，淘宝手机页面源代码】我们看一下这...

2017-12-02 15:42:00 2108

原创爬虫实战【7】Ajax解析续-今日头条图片下载

昨天我们分析了今日头条搜索得到的信息，一直对图集感兴趣的我还是选择将所有的图片下载下来。我们继续讲一下如何通过各个图集的url得到每个图集下面的照片。分析图集的组成【插入图片，某个图集的页面】我们看上面的这个图片，右面的1/5可以看出，这个图集有5张图片，在图片上右侧点击的话，会打开下一张图片。我们来看一下这些图片的url在哪里？分析图集的源代码【插入图片，图集页的XHR信息】...

2017-12-01 20:22:00 90

rainDG的博客