2016年06月_lucifer_sam

07月 06月

原创利用Scrapy爬取糗事百科段子

之前用BeautifulSoup爬过糗事百科段子，但效率太低，自从使用了Scrapy框架以后，爬取大量信息再也不是事儿。今天要用这个强大的框架来爬取段子们，并将它们保存到本地的json文件中。scrapy startproject qiushibaike　　创建好项目后，首先考虑要爬取的内容，为了简洁这里只爬取作者和段子信息，可以根据需要设置其他对象如点赞数、评论数等。import scrapyc

2016-06-30 08:57:40 1283

原创使用Scrapy框架爬取艺龙网机票信息

学爬虫的初衷便是为了爬机票信息，因为从小到大没坐过飞机，所以有着深深的怨念。掌握了一定的爬虫技巧后，尝试过爬去哪儿网和携程网的机票，均以失败告终，所幸在最后的一根稻草艺龙网上取得了想要的结果。　　用Scrapy框架来完成这次任务。　　首先，创建一个新的任务：scrapy startproject Airplane　　可爬的信息有很多，如果你愿意，可意得到是否有餐食的信息，在items.py里

2016-06-29 18:23:28 2500

原创糗事百科交互式爬虫

学习爬虫的过程参考了很多静觅博客的教程及例子。其中便有这个爬取糗事百科的爬虫。　　思路基本沿袭原版，此处对它进行了修改，用BeautifulSoup来实现，并应用到了User-agent池，来反反爬虫。　　# -*- coding:utf-8 -*- __author__ = 'fybhp' import urllib2, os, os.path, urllib, random from

2016-06-28 11:29:19 704

原创百度贴吧图片区通用爬虫

很多百度贴吧都有图片区，这里以最喜欢的能年犬的贴吧为例，见下图。　　　　　　根据观察发现它的网址为＂http://tieba.baidu.com/photo/g?kw=” + tieba_name + “&ie=utf-8＂。会发现有不同的主题，大触能年，杂志等等。需要注意的是，在这个页面，每个主题最多显示三个图册，若该图册有多于三个主题，则需要进入主题url才能进入。这里点击Blog，

2016-06-28 10:47:16 696 1

原创爬虫整理与复习

之前学过了一阵子的爬虫，看的内容多且杂，彼时并未将内容融会贯通，且各处收集代码较杂乱。　　自己也写了一些，或是将网上的代码加以修改，当时是在Windows7的条件下均运行过至少一次可以达到预期效果。后转入ubuntu系统，现再次将之前所学代码系统得过一遍，达到复习效果的同时，使其亦可在linux上正常运行。

2016-06-27 16:43:58 443

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 利用Scrapy爬取糗事百科段子

原创 使用Scrapy框架爬取艺龙网机票信息

原创 糗事百科交互式爬虫

原创 百度贴吧图片区通用爬虫

原创 爬虫整理与复习

空空如也

空空如也

原创利用Scrapy爬取糗事百科段子

原创使用Scrapy框架爬取艺龙网机票信息

原创糗事百科交互式爬虫

原创百度贴吧图片区通用爬虫

原创爬虫整理与复习