自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孔天逸'Blog

我开通了CSDN小店,有钱捧个钱场~

  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 @contextmanager:Python实现with结构的好方法

常见with结构常见的with结构是在进行文件操作时,比如# 中规中矩的写法f = open("test.txt", "w")f.write("hello world!")f.close()# 采用with结构with open("test.txt", "w") as f: f.write("hello world!")这个结构的好处,一个是简洁,一个是当我们对文件操作的逻辑很长的时候,

2016-10-25 20:13:46 6143

转载 Ubuntu16.04安装Redis

原文地址:http://blog.fens.me/linux-redis-install/前言Redis是常用基于内存的Key-Value数据库,比Memcache更先进,支持多种数据结构,高效,快速。用Redis可以很轻松解决高并发的数据访问问题;做为时时监控信号处理也非常不错。环境原文:Ubuntu 12.04 本人:经测试Ubuntu 16.04仍适用安装Redis服务器端~ sudo ap

2016-10-24 16:53:04 21141 4

原创 C语言:error: a label can only be part of a statement and a declaration is not a statement|

场景还原一个简单的switch语句Demo#include<stdio.h>int main(){ int a=1, b=2, re; char c; scanf("%c", &c); switch(c) { case '+': re = a + b; break; case '$': re = a - b; r

2016-10-19 11:46:03 16745 2

原创 Scrapy定向爬虫教程(五)——保持登陆状态

本节内容在访问网站的时候,我们经常遇到有些页面必须用户登录才能访问。这个时候我们之前写的傻傻的爬虫就被ban在门外了。所以本节,我们给爬虫配置cookie,使得爬虫能保持用户已登录的状态,达到获得那些需登录才能访问的页面的目的。由于本节只是单纯的想保持一下登陆状态,所以就不写复杂的获取页面了,还是像本教程的第一部分一样,下载个网站主页验证一下就ok了。本节github戳此处。原理一般情况下,网站通过

2016-10-15 12:16:27 21280 7

原创 Scrapy定向爬虫教程(四)——数据存入MongoDB

本节内容这一小结我们共同学习把Scrapy爬取到的数据存储到MongoDB数据库中。其中包括以下知识:Linux下MongoDB的安装pymongo的安装Scrapy + pymongoRobmongo的下载使用我已将本节内容的源码传至本项目的useMongoDB分支,不学习本节不影响以后的教程学习。安装MongoDB使用apt-get进行安装sudo apt-get install mo

2016-10-14 14:05:16 17402 10

原创 Scrapy定向爬虫教程(三)——爬取多个页面

本节内容本部分所实现的功能是,批量的爬取网页信息,不再是像以前那样只能下载一个页面了。也就是说,分析出网页的url规律后,用特定的算法去迭代,达到把整个网站的有效信息都拿下的目的。 因为本部分讲完后,功能已经到了可以使用的地步,所以我把本部分的结果独立出来,把项目上传到了github,小伙伴可以下载参考,地址https://github.com/kongtianyi/heartsong。教程余下的

2016-10-13 22:50:20 30946 1

原创 Scrapy定向爬虫教程(二)——提取网页内容

本节内容在这一小结,我将介绍如何使用Scrapy通过Selector选择器从网页中提取出我们想要的内容,并将这些内容存放到本地文件。 我们的目标网页是http://www.heartsong.top/forum.php?mod=viewthread&tid=8,一个有七层楼的帖子。我们要获取到每一层楼的下列信息: * 所属主题帖的标题 * 所属主题帖的url * 这一楼层的作者 * 这一楼

2016-10-13 22:41:18 11484 16

原创 Scrapy定向爬虫教程(一)——创建运行项目和基本介绍

前言目前网上的Scrapy中文教程比较少,而且大多教程使用的Scrapy版本较老,比如说这个Scrapy 0.25 文档,如其名,上古时期的翻译文档;再比如极客学院的视频教程使用的是1.0.x版本,跟新版相比还是有出入。这种情况使得新手入门Scrapy较为困难,而且各种掉坑。本人也是只刚入门的菜鸟,我希望能用菜鸟的语言给其他想要踏进Scrapy大门的小菜鸟指引一条道路。至少比我踩得坑少点吧^-^。开

2016-10-13 22:34:09 22095 3

原创 Ubuntu16.04安装Scrapy命令

背景命令行下有三种安装Scrapy的方式:apt-get:千万不要用,因为你会下载到一个上古时期的Scrapy版本,产生一系列与你参考教程的代码不兼容的问题easy_install:我没有安装成功pip:Scrapy官网上推荐的下载方式,我们使用这种方法安装首先python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。其次安装pip,在命令行中执行以下命令:sudo a

2016-10-13 22:25:02 13846

原创 Win10下pip的安装

pip简介pip 是一个安装和管理 Python 包的工具,通过pip我们能够轻松地下载和卸载python的第三方包。原料64位Windows10 专业版python 2.7.12(没有安装python的同学请戳链接Win10下的Python环境配置)下载安装包进入python官方网站,点击上方导航栏的PyPI,如图一在进入的页面右上方的搜索框输入pip,点击search按钮,如图二在搜索列表

2016-10-13 22:23:42 62370 8

原创 Win10下的Python环境配置

Win10下的Python环境配置原料64位Windows10 专业版安装Python访问python的官方网站www.python.org,点击download,如图一 选择2.7版本,如图二下载好图三所示文件双击打开上述安装程序,选择是否给所有用户使用,默认是给全局,点Next 选择安装路径,选好后Next选择要安装的模块,默认即可,Next 安装完了,点击Finash 去安装目录看一下目录结构

2016-10-13 22:07:55 17032 7

原创 Python删除某一目录下的空文件(夹)

Python删除某一目录下的空文件(夹)用途输入文件夹路径,将此文件夹下所有的空文件夹和空文件删除,算是文件操作的一个习作吧。我拿它做什么就不广而告之了。代码# coding: utf-8import os # 引入文件操作库def CEF(path): """ CLean empty files, 清理空文件夹和空文件 :param path: 文件路径,检查此文件路径

2016-10-13 21:50:52 15467 6

原创 Linux下pyCharm无法输入中文的解决办法

Linux下pyCharm无法输入中文的解决办法问题描述在Ubuntu下写Python代码的注释的时候,发现pyCharm无法输入中文。解决办法进入pyCharm的安装目录,进入bin目录,找到pycharm.sh文件,加入以下配置项:export GTK_IM_MODULE=fcitx export QT_IM_MODULE=fcitx export XMODIFIERS=@im=fcitx之

2016-10-13 21:46:27 9352 2

基于Redis的布隆过滤器

基于Redis的布隆过滤器,内含scrapy示例程序,github地址:https://github.com/kongtianyi/BloomFilterRedis

2017-04-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除