Scrapy爬虫教程
网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息。
djd已经存在
······
展开
-
Python的爬虫框架 Scrapy
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。一、概述 下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释原创 2015-11-15 15:31:45 · 2204 阅读 · 0 评论 -
利用scrapy抓取网易新闻并将其存储在mongoDB
好久没有写爬虫了,写一个scrapy的小爬爬来抓取网易新闻,代码原型是github上的一个爬虫,最近也看了一点mongoDB,顺便小用一下,体验一下NoSQL是什么感觉。言归正传啊,scrapy爬虫主要有几个文件需要修改。这个爬虫需要你装一下mongodb数据库和pymongo,进入数据库之后,利用find语句就可以查看数据库中的内容,抓取的内容如下所示:{ "_id" : ObjectId原创 2015-06-10 10:54:36 · 4958 阅读 · 0 评论 -
python爬取京东所有iphone的价格和名称
原本想升一下级,用一下creep神马的,但是正则今天突然出了点小问题,我就生气了,就用正则抓取了一下。这个正则可以用re.search 或者 re.findall都可以,我比较喜欢用search因为可以直接提取结果不用在过滤了。代码如下,这个小爬爬比较简单。#-*- coding:utf-8 -*-import urllib2import jsonimport reSear原创 2015-04-30 00:27:08 · 4115 阅读 · 3 评论 -
python爬虫抓取全国pm2.5的空气质量(2015.12.21版)
这个编码格式真的是很闹心啊,看来真的得深入学习一下编码格式,要不这各种格式错误。这个编码还和编辑器有关系,最开始的时候实在sublime Text里编辑的代码,运行起来卡卡的,特别顺畅,但突然发现它不支持raw_input和input,所以令临时换到了python官方提供的idle中。之后就出现了各种奇葩编码错误。。。。。。程序大概意思就是,你输入一个城市的拼音,它就会返回这个城市的空气污原创 2015-05-09 14:41:46 · 9026 阅读 · 1 评论 -
爬虫Scrapy学习指南之抓取新浪天气
scrapy有一个简单的入门文档,大家可以参考一下,我感觉官方文档是最靠谱的,也是最真实的。首先我们先创建一个scrapy的项目scrapy startproject weather我采用的是ubuntu12.04的系统,建立项目之后主文件夹就会出现一个weather的文件夹。我们可以通过tree来查看文件夹的结构。可以使用sudoapt-get insta原创 2015-05-11 11:47:55 · 3445 阅读 · 2 评论 -
爬虫scrapy抓取w3school课程列表
首先还是先创建scrapy项目,当然这都是在你安装scrapy之后啊,这个scrapy还是在linux系统下最省事,一行指令瞬间安装,这酸爽。。。。。言归正传啊,创建scrapy文件。scrapy startproject w3school之后可以查看一下,这个文件的结构,上一次抓取天气的时候还记得吗,我们采用的是tree命令。tree w3school你就能看见一个树形的原创 2015-05-12 19:14:18 · 2920 阅读 · 0 评论