2015年06月_felcon

原创 MongoDB初步

最近处理的都是论坛、博客一类文档型的数据，也想换个数据库试试，刚好看到mongoDB，就试试吧。环境描述：系统：windows 7 32bit mongoDB版本：3.0.4Windows下安装从官网下载安装包：https://www.mongodb.org/downloads mongoDB支持Linux、OS X和Windows系统，注意下载的时候选择好自己的系统版本。从2.2开始不支持XP

2015-06-26 15:51:48 498

原创利用MongoDB存储scrapy的数据

之前scrapy都是存储在文件中，该考虑一下数据库了。当前工作爬取的内容（不是前面说的豆瓣小组）实际上很多都是文档型的，类似于文章+评论的样式，其中文章又包括标题、作者、地址等。使用传统关系数据库当然也可以，使用ID和外键连接就可以了。但既然有了文档型的非关系数据库，就试试吧。选择了MongoDB，网上查了下，主要特性如下：面向集合（Collenction-Oriented）：意思是数据被

2015-06-25 09:27:26 1289

原创初探Redis

Redis 是一款依据BSD开源协议发行的高性能Key-Value存储系统（cache and store）。它是一种内存数据库，即将数据存储在内存中，这使得其性能（主要针对存取速度）优于硬盘数据库。此外也支持持久化操作来长久保存数据官方网站：RedisRedis提供了丰富的数据结构，最为常用的包括String、List、Set、Sorted set、Hash这五类，强烈建议走一遍官网的inte

2015-06-24 16:37:58 428

转自：Console2：Windows命令行威力加强版作为一个Windows重度用户+程序猿，日常开发中免不了要经常使用命令行工具。但是Windows下默认的cmd提供的功能实在有限。今天无意间发现了一款很不错的命令行工具前端Console2，瞬间就被其深深地吸引，赶紧记下来分享一下。本文将简单介绍Console2及其配置方法，让你可以快速地配置出一个类似Linux终端的装逼利器。和Linux下有强

2015-06-18 15:56:03 4528 1

原创 scrapy爬虫起步（5）--又一个多页面抓取的方法

上上篇scrapy爬虫起步（3）– 利用规则实现多页面抓取给出了利用CrawlSpider的Rule实现多页面抓取的方法，实际上直接利用BaseSpider也能实现多页面抓取。具体思路：还是以我们的豆瓣小组为例吧，豆瓣社科小组，我们将首页地址作为start_url参数，从页面源码找到其余分页，如下： <div class="paginator"> <span class="p

2015-06-18 14:55:44 6435

转载 scrapy爬虫起步（4）-- 来个scrapy的简介吧

完成了之前3步工作，现在再来个简介是不是有点顺序错乱的感觉。其实我觉得经历了之前的步骤之后再来看看更有助于理解。内容是从别人那儿摘的，个人觉得讲的挺清楚。来源：Scrapy简介Scrapy简介Scrapy是Python开发的一个快速,高层次的屏幕抓取和Web抓取框架，用于抓取Web站点并从页面中提取结构化的数据。下图展示了Scrapy的大致架构，其中包含了主要组件和系统的数据处理流程（绿色箭

2015-06-17 17:12:20 939

原创 scrapy爬虫起步（3）-- 利用规则实现多页面抓取

第一篇 scrapy爬虫起步（2）–从script调用scrapy实现了一个简单的爬虫程序，只抓取start_urls里的网页信息。用以实验的页面是社科相关的小组，这只是社科小组下面的第一页地址，如果需要抓取该分组下所有的小组，就需要继续访问其它页。利用scrapy的规则匹配来自动实现。先贴代码吧：# coding=utf-8__author__ = 'Jeffee Chen'from scrap

2015-06-17 17:01:38 5315

原创一些有趣的网站

http://www.koalastothemax.com/ 鼠标滚动进行细胞分裂http://explainshell.com/调试正则表达式、Javascript……

2015-06-17 15:58:39 722

原创 scrapy爬虫起步（2）--从script调用scrapy

上一篇scrapy爬虫起步（1）–第一个爬虫程序介绍了利用scrapy进行数据抓取的一个简单例子，需要从命令行运行。有些时候我们需要的是直接从代码中调用，Scrapy提供了相应的接口，具体见这儿在脚本中运行Scrapy实践过程中发现版本不一样程序差距蛮大，我现在使用的版本是：Scrapy 0.24.6，因此参照的是0.24的文档，如果选择最新的文档在脚本中运行Scrapy会有问题，使用时需要注意一下

2015-06-17 10:42:48 3601

原创 scrapy爬虫起步（1）--第一个爬虫程序

使用scrapy抓取豆瓣小组的组名1. 新建scrapy工程新建工程文件夹，命令行cd到该目录下，用下面的命令新建一个scrapy工程 scrapy startproject dmoz 新建好的工程目录结构为：E:\PYTHON WORKSPACE\DOUBAN│ scrapy.cfg└─douban │ items.py │ pipelines.py │

2015-06-16 15:49:12 1829

原创 Python的HttpResponse.write()换行的小问题

使用Python开发一个小的web应用，返回的是文本文件，使用HttpResponse写就可以了。发现写的文件没有换行，加了”\n”也没用，搞了半天才发现自己晕头了，”\r\n”即可…… PS. 如果是要浏览器显示换行，加<br>

2015-06-12 08:35:50 4960

原创 Scrapy中文输出与中文保存

使用Scrapy抓取中文时，输出一般是unicode，要输出中文也只需要稍作改动。两种情况：单纯交互输出如代码：title = sel.xpath('a/text()').extract()print title此时输出的是title对应中文的unicode格式，只需要指定“utf-8”编码即可输出中文，如下：title = sel.xpath('a/text()').extract()fo

2015-06-10 11:44:07 8711

原创 Vim学习笔记--复制粘贴

基本操作yy（Y）：复制游标所在行整行2yy（y2y）：复制两行，可举一反三y^（y0）：复制至行首，不含游标所在处字符y$：复制至行尾，含游标所在处字元。yw：复制一个字/单词y2w：复制两个字/单词4yl ：复制光标后的4个字符4yh：复制光标前的4个字符p：小写p代表粘贴到至游标后P：大写P代表粘贴到游标前寄存器篇Vim中，若要复制当前行，普通模式下按 yy 即可，在要粘

2015-06-02 11:04:02 588

原创利用搜狗抓取微信公众号文章

微信一直是一个自己玩的小圈子，前段时间搜狗推出的微信搜索带来了一丝曙光。搜狗搜索推出了内容搜索和公众号搜索两种，利用后者可以抓取微信公众号的最新内容，看了下还是比较及时的。每个公众号都有一个openid，最早可以直接利用http://weixin.sogou.com/gzh?openid=***来获取页面，但改版后对openid进行了加密操作，使用原来的方法返回的数据为空。利用httpFox

2015-06-02 09:54:58 13823 8

原创 Sublime Text Build 3080 License key

复制任意一个即可—– BEGIN LICENSE —– K-20 Single User License EA7E-940129 3A099EC1 C0B5C7C5 33EBF0CF BE82FE3B EAC2164A 4F8EC954 4E87F1E5 7E4E85D6 C5605DE6 DAB003B4 D60CA4D0 77CB1533 3C47F579 FB3E8476 EB3

2015-06-02 08:50:24 606

原创折腾Sublime--格式化篇

记录几个好用的格式化插件，首先要安装Package Control，见这里安装方法都类似： 1. 使用Ctrl+Shift+P调出Package Control； 2.输入“ip”调出 Package Control: Install Package 选项，输入插件名称，回车等待安装完成。XML格式化Tag是HTML代码格式化插件，可以实现Html/XML文本的格式化使用方法：快捷键“Ctr

2015-06-02 08:46:04 719

felcon的专栏