自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 收藏
  • 关注

原创 MongoDB初步

最近处理的都是论坛、博客一类文档型的数据,也想换个数据库试试,刚好看到mongoDB,就试试吧。环境描述:系统:windows 7 32bit mongoDB版本:3.0.4Windows下安装从官网下载安装包:https://www.mongodb.org/downloads mongoDB支持Linux、OS X和Windows系统,注意下载的时候选择好自己的系统版本。从2.2开始不支持XP

2015-06-26 15:51:48 498

原创 利用MongoDB存储scrapy的数据

之前scrapy都是存储在文件中,该考虑一下数据库了。 当前工作爬取的内容(不是前面说的豆瓣小组)实际上很多都是文档型的,类似于文章+评论的样式,其中文章又包括标题、作者、地址等。使用传统关系数据库当然也可以,使用ID和外键连接就可以了。但既然有了文档型的非关系数据库,就试试吧。 选择了MongoDB,网上查了下,主要特性如下:面向集合(Collenction-Oriented):意思是数据被

2015-06-25 09:27:26 1289

原创 初探Redis

Redis 是一款依据BSD开源协议发行的高性能Key-Value存储系统(cache and store)。 它是一种内存数据库,即将数据存储在内存中,这使得其性能(主要针对存取速度)优于硬盘数据库。此外也支持持久化操作来长久保存数据官方网站:RedisRedis提供了丰富的数据结构,最为常用的包括String、List、Set、Sorted set、Hash这五类,强烈建议走一遍官网的inte

2015-06-24 16:37:58 428

转载 Console2:Windows命令行威力加强版

转自:Console2:Windows命令行威力加强版作为一个Windows重度用户+程序猿,日常开发中免不了要经常使用命令行工具。但是Windows下默认的cmd提供的功能实在有限。今天无意间发现了一款很不错的命令行工具前端Console2,瞬间就被其深深地吸引,赶紧记下来分享一下。本文将简单介绍Console2及其配置方法,让你可以快速地配置出一个类似Linux终端的装逼利器。和Linux下有强

2015-06-18 15:56:03 4528 1

原创 scrapy爬虫起步(5)--又一个多页面抓取的方法

上上篇scrapy爬虫起步(3)– 利用规则实现多页面抓取给出了利用CrawlSpider的Rule实现多页面抓取的方法,实际上直接利用BaseSpider也能实现多页面抓取。 具体思路:还是以我们的豆瓣小组为例吧,豆瓣社科小组,我们将首页地址作为start_url参数,从页面源码找到其余分页,如下: <div class="paginator"> <span class="p

2015-06-18 14:55:44 6435

转载 scrapy爬虫起步(4)-- 来个scrapy的简介吧

完成了之前3步工作,现在再来个简介是不是有点顺序错乱的感觉。其实我觉得经历了之前的步骤之后再来看看更有助于理解。 内容是从别人那儿摘的,个人觉得讲的挺清楚。 来源:Scrapy简介Scrapy简介Scrapy是Python开发的一个快速,高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。下图展示了Scrapy的大致架构,其中包含了主要组件和系统的数据处理流程(绿色箭

2015-06-17 17:12:20 939

原创 scrapy爬虫起步(3)-- 利用规则实现多页面抓取

第一篇 scrapy爬虫起步(2)–从script调用scrapy实现了一个简单的爬虫程序,只抓取start_urls里的网页信息。用以实验的页面是社科相关的小组,这只是社科小组下面的第一页地址,如果需要抓取该分组下所有的小组,就需要继续访问其它页。利用scrapy的规则匹配来自动实现。先贴代码吧:# coding=utf-8__author__ = 'Jeffee Chen'from scrap

2015-06-17 17:01:38 5315

原创 一些有趣的网站

http://www.koalastothemax.com/ 鼠标滚动进行细胞分裂http://explainshell.com/调试正则表达式、Javascript……

2015-06-17 15:58:39 722

原创 scrapy爬虫起步(2)--从script调用scrapy

上一篇scrapy爬虫起步(1)–第一个爬虫程序介绍了利用scrapy进行数据抓取的一个简单例子,需要从命令行运行。有些时候我们需要的是直接从代码中调用,Scrapy提供了相应的接口,具体见这儿在脚本中运行Scrapy实践过程中发现版本不一样程序差距蛮大,我现在使用的版本是:Scrapy 0.24.6,因此参照的是0.24的文档,如果选择最新的文档在脚本中运行Scrapy会有问题,使用时需要注意一下

2015-06-17 10:42:48 3601

原创 scrapy爬虫起步(1)--第一个爬虫程序

使用scrapy抓取豆瓣小组的组名1. 新建scrapy工程新建工程文件夹,命令行cd到该目录下,用下面的命令新建一个scrapy工程 scrapy startproject dmoz 新建好的工程目录结构为:E:\PYTHON WORKSPACE\DOUBAN│ scrapy.cfg└─douban │ items.py │ pipelines.py │

2015-06-16 15:49:12 1829

原创 Python的HttpResponse.write()换行的小问题

使用Python开发一个小的web应用,返回的是文本文件,使用HttpResponse写就可以了。 发现写的文件没有换行,加了”\n”也没用,搞了半天才发现自己晕头了,”\r\n”即可…… PS. 如果是要浏览器显示换行,加<br>

2015-06-12 08:35:50 4960

原创 Scrapy中文输出与中文保存

使用Scrapy抓取中文时,输出一般是unicode,要输出中文也只需要稍作改动。 两种情况:单纯交互输出如代码:title = sel.xpath('a/text()').extract()print title此时输出的是title对应中文的unicode格式,只需要指定“utf-8”编码即可输出中文,如下:title = sel.xpath('a/text()').extract()fo

2015-06-10 11:44:07 8711

原创 Vim学习笔记--复制粘贴

基本操作yy(Y):复制游标所在行整行2yy(y2y):复制两行,可举一反三y^(y0):复制至行首,不含游标所在处字符y$:复制至行尾,含游标所在处字元。yw:复制一个字/单词y2w:复制两个字/单词4yl :复制光标后的4个字符4yh:复制光标前的4个字符p:小写p代表粘贴到至游标后P:大写P代表粘贴到游标前寄存器篇Vim中,若要复制当前行,普通模式下按 yy 即可,在要粘

2015-06-02 11:04:02 588

原创 利用搜狗抓取微信公众号文章

微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光。搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的。 每个公众号都有一个openid,最早可以直接利用http://weixin.sogou.com/gzh?openid=***来获取页面,但改版后对openid进行了加密操作,使用原来的方法返回的数据为空。 利用httpFox

2015-06-02 09:54:58 13823 8

原创 Sublime Text Build 3080 License key

复制任意一个即可—– BEGIN LICENSE —– K-20 Single User License EA7E-940129 3A099EC1 C0B5C7C5 33EBF0CF BE82FE3B EAC2164A 4F8EC954 4E87F1E5 7E4E85D6 C5605DE6 DAB003B4 D60CA4D0 77CB1533 3C47F579 FB3E8476 EB3

2015-06-02 08:50:24 606

原创 折腾Sublime--格式化篇

记录几个好用的格式化插件,首先要安装Package Control,见这里安装方法都类似: 1. 使用Ctrl+Shift+P调出Package Control; 2.输入“ip”调出 Package Control: Install Package 选项,输入插件名称,回车等待安装完成。XML格式化Tag是HTML代码格式化插件,可以实现Html/XML文本的格式化 使用方法:快捷键“Ctr

2015-06-02 08:46:04 719

通信学报模板

《通信学报》的论文模板,双栏格式 主页上没有给出下载

2014-07-20

CSS 2.0样式表中文手册

CSS 2.0样式表中文手册

2008-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除