2016年10月_孔天逸

原创 @contextmanager:Python实现with结构的好方法

常见with结构常见的with结构是在进行文件操作时，比如# 中规中矩的写法f = open("test.txt", "w")f.write("hello world!")f.close()# 采用with结构with open("test.txt", "w") as f: f.write("hello world!")这个结构的好处，一个是简洁，一个是当我们对文件操作的逻辑很长的时候，

2016-10-25 20:13:46 6143

转载 Ubuntu16.04安装Redis

原文地址：http://blog.fens.me/linux-redis-install/前言Redis是常用基于内存的Key-Value数据库，比Memcache更先进，支持多种数据结构，高效，快速。用Redis可以很轻松解决高并发的数据访问问题；做为时时监控信号处理也非常不错。环境原文：Ubuntu 12.04 本人：经测试Ubuntu 16.04仍适用安装Redis服务器端~ sudo ap

2016-10-24 16:53:04 21141 4

原创 C语言:error: a label can only be part of a statement and a declaration is not a statement|

场景还原一个简单的switch语句Demo#include<stdio.h>int main(){ int a=1, b=2, re; char c; scanf("%c", &c); switch(c) { case '+': re = a + b; break; case '$': re = a - b; r

2016-10-19 11:46:03 16745 2

原创 Scrapy定向爬虫教程(五)——保持登陆状态

本节内容在访问网站的时候，我们经常遇到有些页面必须用户登录才能访问。这个时候我们之前写的傻傻的爬虫就被ban在门外了。所以本节，我们给爬虫配置cookie，使得爬虫能保持用户已登录的状态，达到获得那些需登录才能访问的页面的目的。由于本节只是单纯的想保持一下登陆状态，所以就不写复杂的获取页面了，还是像本教程的第一部分一样，下载个网站主页验证一下就ok了。本节github戳此处。原理一般情况下，网站通过

2016-10-15 12:16:27 21280 7

原创 Scrapy定向爬虫教程(四)——数据存入MongoDB

本节内容这一小结我们共同学习把Scrapy爬取到的数据存储到MongoDB数据库中。其中包括以下知识：Linux下MongoDB的安装pymongo的安装Scrapy + pymongoRobmongo的下载使用我已将本节内容的源码传至本项目的useMongoDB分支，不学习本节不影响以后的教程学习。安装MongoDB使用apt-get进行安装sudo apt-get install mo

2016-10-14 14:05:16 17402 10

原创 Scrapy定向爬虫教程(三)——爬取多个页面

本节内容本部分所实现的功能是，批量的爬取网页信息，不再是像以前那样只能下载一个页面了。也就是说，分析出网页的url规律后，用特定的算法去迭代，达到把整个网站的有效信息都拿下的目的。因为本部分讲完后，功能已经到了可以使用的地步，所以我把本部分的结果独立出来，把项目上传到了github，小伙伴可以下载参考，地址https://github.com/kongtianyi/heartsong。教程余下的

2016-10-13 22:50:20 30946 1

原创 Scrapy定向爬虫教程(二)——提取网页内容

本节内容在这一小结，我将介绍如何使用Scrapy通过Selector选择器从网页中提取出我们想要的内容，并将这些内容存放到本地文件。我们的目标网页是http://www.heartsong.top/forum.php?mod=viewthread&tid=8,一个有七层楼的帖子。我们要获取到每一层楼的下列信息： * 所属主题帖的标题 * 所属主题帖的url * 这一楼层的作者 * 这一楼

2016-10-13 22:41:18 11484 16

原创 Scrapy定向爬虫教程(一)——创建运行项目和基本介绍

前言目前网上的Scrapy中文教程比较少，而且大多教程使用的Scrapy版本较老，比如说这个Scrapy 0.25 文档，如其名，上古时期的翻译文档；再比如极客学院的视频教程使用的是1.0.x版本，跟新版相比还是有出入。这种情况使得新手入门Scrapy较为困难，而且各种掉坑。本人也是只刚入门的菜鸟，我希望能用菜鸟的语言给其他想要踏进Scrapy大门的小菜鸟指引一条道路。至少比我踩得坑少点吧^-^。开

2016-10-13 22:34:09 22095 3

原创 Ubuntu16.04安装Scrapy命令

背景命令行下有三种安装Scrapy的方式：apt-get:千万不要用，因为你会下载到一个上古时期的Scrapy版本，产生一系列与你参考教程的代码不兼容的问题easy_install:我没有安装成功pip:Scrapy官网上推荐的下载方式，我们使用这种方法安装首先python、lxml、OpenSSL这些工具Ubuntu是自带的，不用管它们。其次安装pip，在命令行中执行以下命令：sudo a

2016-10-13 22:25:02 13846

原创 Win10下pip的安装

pip简介pip 是一个安装和管理 Python 包的工具，通过pip我们能够轻松地下载和卸载python的第三方包。原料64位Windows10 专业版python 2.7.12(没有安装python的同学请戳链接Win10下的Python环境配置)下载安装包进入python官方网站，点击上方导航栏的PyPI，如图一在进入的页面右上方的搜索框输入pip，点击search按钮，如图二在搜索列表

2016-10-13 22:23:42 62370 8

原创 Win10下的Python环境配置

Win10下的Python环境配置原料64位Windows10 专业版安装Python访问python的官方网站www.python.org，点击download，如图一选择2.7版本，如图二下载好图三所示文件双击打开上述安装程序，选择是否给所有用户使用，默认是给全局，点Next 选择安装路径，选好后Next选择要安装的模块，默认即可，Next 安装完了，点击Finash 去安装目录看一下目录结构

2016-10-13 22:07:55 17032 7

原创 Python删除某一目录下的空文件(夹)

Python删除某一目录下的空文件(夹)用途输入文件夹路径，将此文件夹下所有的空文件夹和空文件删除，算是文件操作的一个习作吧。我拿它做什么就不广而告之了。代码# coding: utf-8import os # 引入文件操作库def CEF(path): """ CLean empty files, 清理空文件夹和空文件 :param path: 文件路径，检查此文件路径

2016-10-13 21:50:52 15467 6

原创 Linux下pyCharm无法输入中文的解决办法

Linux下pyCharm无法输入中文的解决办法问题描述在Ubuntu下写Python代码的注释的时候，发现pyCharm无法输入中文。解决办法进入pyCharm的安装目录，进入bin目录，找到pycharm.sh文件，加入以下配置项：export GTK_IM_MODULE=fcitx export QT_IM_MODULE=fcitx export XMODIFIERS=@im=fcitx之

2016-10-13 21:46:27 9352 2

孔天逸'Blog