- 博客(16)
- 资源 (3)
- 收藏
- 关注
原创 MongoDB初步
最近处理的都是论坛、博客一类文档型的数据,也想换个数据库试试,刚好看到mongoDB,就试试吧。环境描述:系统:windows 7 32bit mongoDB版本:3.0.4Windows下安装从官网下载安装包:https://www.mongodb.org/downloads mongoDB支持Linux、OS X和Windows系统,注意下载的时候选择好自己的系统版本。从2.2开始不支持XP
2015-06-26 15:51:48 498
原创 利用MongoDB存储scrapy的数据
之前scrapy都是存储在文件中,该考虑一下数据库了。 当前工作爬取的内容(不是前面说的豆瓣小组)实际上很多都是文档型的,类似于文章+评论的样式,其中文章又包括标题、作者、地址等。使用传统关系数据库当然也可以,使用ID和外键连接就可以了。但既然有了文档型的非关系数据库,就试试吧。 选择了MongoDB,网上查了下,主要特性如下:面向集合(Collenction-Oriented):意思是数据被
2015-06-25 09:27:26 1289
原创 初探Redis
Redis 是一款依据BSD开源协议发行的高性能Key-Value存储系统(cache and store)。 它是一种内存数据库,即将数据存储在内存中,这使得其性能(主要针对存取速度)优于硬盘数据库。此外也支持持久化操作来长久保存数据官方网站:RedisRedis提供了丰富的数据结构,最为常用的包括String、List、Set、Sorted set、Hash这五类,强烈建议走一遍官网的inte
2015-06-24 16:37:58 428
转载 Console2:Windows命令行威力加强版
转自:Console2:Windows命令行威力加强版作为一个Windows重度用户+程序猿,日常开发中免不了要经常使用命令行工具。但是Windows下默认的cmd提供的功能实在有限。今天无意间发现了一款很不错的命令行工具前端Console2,瞬间就被其深深地吸引,赶紧记下来分享一下。本文将简单介绍Console2及其配置方法,让你可以快速地配置出一个类似Linux终端的装逼利器。和Linux下有强
2015-06-18 15:56:03 4528 1
原创 scrapy爬虫起步(5)--又一个多页面抓取的方法
上上篇scrapy爬虫起步(3)– 利用规则实现多页面抓取给出了利用CrawlSpider的Rule实现多页面抓取的方法,实际上直接利用BaseSpider也能实现多页面抓取。 具体思路:还是以我们的豆瓣小组为例吧,豆瓣社科小组,我们将首页地址作为start_url参数,从页面源码找到其余分页,如下: <div class="paginator"> <span class="p
2015-06-18 14:55:44 6435
转载 scrapy爬虫起步(4)-- 来个scrapy的简介吧
完成了之前3步工作,现在再来个简介是不是有点顺序错乱的感觉。其实我觉得经历了之前的步骤之后再来看看更有助于理解。 内容是从别人那儿摘的,个人觉得讲的挺清楚。 来源:Scrapy简介Scrapy简介Scrapy是Python开发的一个快速,高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。下图展示了Scrapy的大致架构,其中包含了主要组件和系统的数据处理流程(绿色箭
2015-06-17 17:12:20 939
原创 scrapy爬虫起步(3)-- 利用规则实现多页面抓取
第一篇 scrapy爬虫起步(2)–从script调用scrapy实现了一个简单的爬虫程序,只抓取start_urls里的网页信息。用以实验的页面是社科相关的小组,这只是社科小组下面的第一页地址,如果需要抓取该分组下所有的小组,就需要继续访问其它页。利用scrapy的规则匹配来自动实现。先贴代码吧:# coding=utf-8__author__ = 'Jeffee Chen'from scrap
2015-06-17 17:01:38 5315
原创 一些有趣的网站
http://www.koalastothemax.com/ 鼠标滚动进行细胞分裂http://explainshell.com/调试正则表达式、Javascript……
2015-06-17 15:58:39 722
原创 scrapy爬虫起步(2)--从script调用scrapy
上一篇scrapy爬虫起步(1)–第一个爬虫程序介绍了利用scrapy进行数据抓取的一个简单例子,需要从命令行运行。有些时候我们需要的是直接从代码中调用,Scrapy提供了相应的接口,具体见这儿在脚本中运行Scrapy实践过程中发现版本不一样程序差距蛮大,我现在使用的版本是:Scrapy 0.24.6,因此参照的是0.24的文档,如果选择最新的文档在脚本中运行Scrapy会有问题,使用时需要注意一下
2015-06-17 10:42:48 3601
原创 scrapy爬虫起步(1)--第一个爬虫程序
使用scrapy抓取豆瓣小组的组名1. 新建scrapy工程新建工程文件夹,命令行cd到该目录下,用下面的命令新建一个scrapy工程 scrapy startproject dmoz 新建好的工程目录结构为:E:\PYTHON WORKSPACE\DOUBAN│ scrapy.cfg└─douban │ items.py │ pipelines.py │
2015-06-16 15:49:12 1829
原创 Python的HttpResponse.write()换行的小问题
使用Python开发一个小的web应用,返回的是文本文件,使用HttpResponse写就可以了。 发现写的文件没有换行,加了”\n”也没用,搞了半天才发现自己晕头了,”\r\n”即可…… PS. 如果是要浏览器显示换行,加<br>
2015-06-12 08:35:50 4960
原创 Scrapy中文输出与中文保存
使用Scrapy抓取中文时,输出一般是unicode,要输出中文也只需要稍作改动。 两种情况:单纯交互输出如代码:title = sel.xpath('a/text()').extract()print title此时输出的是title对应中文的unicode格式,只需要指定“utf-8”编码即可输出中文,如下:title = sel.xpath('a/text()').extract()fo
2015-06-10 11:44:07 8711
原创 Vim学习笔记--复制粘贴
基本操作yy(Y):复制游标所在行整行2yy(y2y):复制两行,可举一反三y^(y0):复制至行首,不含游标所在处字符y$:复制至行尾,含游标所在处字元。yw:复制一个字/单词y2w:复制两个字/单词4yl :复制光标后的4个字符4yh:复制光标前的4个字符p:小写p代表粘贴到至游标后P:大写P代表粘贴到游标前寄存器篇Vim中,若要复制当前行,普通模式下按 yy 即可,在要粘
2015-06-02 11:04:02 588
原创 利用搜狗抓取微信公众号文章
微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光。搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的。 每个公众号都有一个openid,最早可以直接利用http://weixin.sogou.com/gzh?openid=***来获取页面,但改版后对openid进行了加密操作,使用原来的方法返回的数据为空。 利用httpFox
2015-06-02 09:54:58 13823 8
原创 Sublime Text Build 3080 License key
复制任意一个即可—– BEGIN LICENSE —– K-20 Single User License EA7E-940129 3A099EC1 C0B5C7C5 33EBF0CF BE82FE3B EAC2164A 4F8EC954 4E87F1E5 7E4E85D6 C5605DE6 DAB003B4 D60CA4D0 77CB1533 3C47F579 FB3E8476 EB3
2015-06-02 08:50:24 606
原创 折腾Sublime--格式化篇
记录几个好用的格式化插件,首先要安装Package Control,见这里安装方法都类似: 1. 使用Ctrl+Shift+P调出Package Control; 2.输入“ip”调出 Package Control: Install Package 选项,输入插件名称,回车等待安装完成。XML格式化Tag是HTML代码格式化插件,可以实现Html/XML文本的格式化 使用方法:快捷键“Ctr
2015-06-02 08:46:04 719
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人