python_knight_qzc的博客-CSDN博客

python

关注

文章平均质量分 54

关注数：文章数：37 文章阅读量：137658 文章收藏量：40

作者: knight_qzc

认真规划开心享受

展开

boost.python入门教程 ----python 嵌入c++

http://www.cnblogs.com/rocketfan/archive/2009/11/15/1603400.htmlboost.python 中 python 嵌入c++ 部分,网上找到的中文资料似乎都有些过时了,如 boost.python学习笔记 http://edyfox.codecarver.org/html/boost_python.html在bo

转载 2015-02-05 12:58:10 · 871 阅读 · 0 评论
PIL不能正常使用exceptions.IOError: decoder jpeg not available

我这边是这么解决的：安装了sudo yum install -y libjpeg-devel之后仍然不行，在安装sudo pip install pillow成功，不报错————————————————————————————————————————————————http://blog.chinaunix.net/uid-24567872-id-3927355.htm

原创 2015-01-14 17:10:49 · 755 阅读 · 0 评论
scrapy 乱码

http://www.addbook.cn/blog/scrapy%E4%B8%AD%E6%96%87%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98http://www.pythonclub.org/python-basic/codec—————————————————————————————————————————————————————————

转载 2015-01-08 17:00:26 · 3975 阅读 · 0 评论
Python yield 使用浅析

如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个和第二个数外，任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常简单的问题，许多初学者都可以轻易写出如下函数：清单 1. 简单输出斐波那契數列前 N 个数 def fab(max): n, a, b = 0, 0, 1 while

转载 2015-01-05 19:15:55 · 428 阅读 · 0 评论
Django 实例

安装django： pip install Django==1.7.1测试是否安装成功>>> import django>>> djan.VERSION>>> django.VERSION(1, 7, 1, 'final', 0)创建项目：django-admin.py startproject mysite

原创 2014-12-01 12:59:31 · 505 阅读 · 0 评论
python webkit 异步抓取页面数据

http://blog.csdn.net/cabing2005/article/details/9764379[python] view plaincopy#!/usr/bin/python from ghost import Ghost class FetcherCartoon: [py

转载 2015-01-15 17:36:56 · 1051 阅读 · 0 评论
scrapy 避免被禁止(ban)

http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/practices.html避免被禁止(ban)有些网站实现了特定的机制，以一定规则来避免被爬虫爬取。与这些规则打交道并不容易，需要技巧，有时候也需要些特别的基础。如果有疑问请考虑联系商业支持。下面是些处理这些站点的建议(tips):使用user

转载 2015-01-13 11:28:42 · 979 阅读 · 0 评论
python strip() split()函数

http://blog.sina.com.cn/s/blog_a39910330101l0gy.html先看一个例子：>>> ipaddr = 10.122.19.10 File "", line 1 ipaddr = 10.122.19.10 ^SyntaxError: invalid syntax>

转载 2015-01-08 16:57:34 · 6494 阅读 · 1 评论
用python的BeautifulSoup分析html

http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.html序言　　之前用python爬取网页的时候，一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时，SGMLParser往往就不那么给力了！（哈，难道说我 too native了？毕竟beautifulSou

转载 2015-01-15 17:39:05 · 729 阅读 · 0 评论
Python正则表达式指南

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则

转载 2015-01-15 16:28:30 · 584 阅读 · 0 评论
CentOS 6.5安装pip

yum intall python-pip________________________________________________________________________http://blog.csdn.net/cnyyx/article/details/25614669从pip官网 https://pypi.python.org/pypi/pip 下载p

转载 2015-01-14 17:07:47 · 747 阅读 · 0 评论
C/C++和Python的交互

http://blog.sina.com.cn/s/blog_67ac78cf01010sjk.html#测试脚本def hello(s): print "hello world" print sdef arg(a, b): print 'a=', a print 'b=', b return a + b

转载 2015-02-05 13:03:33 · 863 阅读 · 0 评论
C语言中调用python

http://wenku.baidu.com/link?url=AAISSxx5WwM-BEtKwpvqrw7Pobu8jWFWC2IBwcNd-UcR2UTdC2jEYv0CEdc5tw606sptCl6eSeFjhKC1_QXTB3B3lyIKRem2OunvtLsDoW注意命名为test.py,因为python自带test模组且优先级高于用户的，所以程序在系统的test.py中找

转载 2015-02-05 13:02:11 · 990 阅读 · 0 评论
python爬虫之Scrapy 使用代理配置

http://www.pythontab.com/html/2014/pythonweb_0326/724.html在爬取网站内容的时候，最常遇到的问题是：网站对IP有限制，会有防抓取功能，最好的办法就是IP轮换抓取（加代理）下面来说一下Scrapy如何配置代理，进行抓取1.在Scrapy工程下新建“middlewares.py”12

转载 2015-01-15 18:11:06 · 2720 阅读 · 0 评论
在windows下安装配置python开发环境及Ulipad开发工具

http://www.cnblogs.com/huangcong/archive/2012/12/14/2818828.htmlPython的IDE也有不少,网上也有很多介绍. 我们选择国产 Python IDE:UliPad.这个IDE本身就是用 Python+wxPython编写的，小巧，功能全，特别适合Python初学者。这是 Ulipad 下载地址：http://cod

转载 2015-01-15 09:22:38 · 642 阅读 · 0 评论
scrapy 在不同的Request之间传递参数的办法

scrapy 在不同的抓取级别的Request之间传递参数的办法，下面的范例中，parse_item通过meta传递给了parse_details参数item，这样就可以再parse_details抓取完成所有的数据后一次返回class MySpider(BaseSpider): name = 'myspider' start_urls = ( 'http://

转载 2015-01-14 17:21:35 · 2841 阅读 · 0 评论
python MySQLdb连接mysql失败 mysql_exceptions.OperationalError: (2002, "Can't connect to local MySQL

我这边产生这个错误是因为在MySQLdb_connect中填写的是远程mysql数据库所在服务器的域名，而填写改为服务器的IP后成功运行。-----------------------------------------------------------------------------------------------------------------------------

原创 2015-01-12 17:48:45 · 13403 阅读 · 0 评论
python 将base64字符串还原成图片保存

import os,base64 strs='''/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAoHBwgHBgoICAgLCgoLDhgQDg0NDh0VFhEYIx8lJCIfIiEmKzcvJik0KSEiMEExNDk7Pj4+JS5ESUM8SDc9Pjv/2wBDAQoLCw4NDhwQEBw7KCIoOzs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Oz

原创 2015-01-14 17:16:33 · 48504 阅读 · 2 评论
SyntaxError: Non-ASCII character ‘\xe5′ in file

http://www.cnblogs.com/timeship/archive/2013/03/05/2945102.html在写一个抓取网页的小脚本，运行起来总是出现这个错误查了下Python的默认编码文件是用的ASCII码，你将文件存成了UTF-8也没用，解决办法很简单只要在文件开头加入 # -*- coding: UTF-8 -*- 或者 #coding=utf

转载 2015-01-16 11:17:43 · 734 阅读 · 0 评论
Scrapy入门教程

1.新建工程：Domz为工程名scrapy startproject Domz生成的目录Domz的结构：dmoz/ scrapy.cfg dmoz/ __init__.py items.py pipelines.py settings.py spiders/ __ini

原创 2015-01-04 19:18:40 · 1179 阅读 · 0 评论
Centos 6.4 python 2.6 升级到 2.7

http://blog.csdn.net/jcjc918/article/details/11022345一开始有这个需求，是因为用 YaH3C 替代 iNode 进行校园网认证时，一直编译错误，提示找不到 Python 的某个模块，百度了一下，此模块是在 Python2.7 以上才有的，但是系统的自带的Python是2.6版本，难怪一直连不上网。于是，继续百度google

转载 2015-01-03 10:34:23 · 534 阅读 · 0 评论
scrapy js动态加载

http://blog.csdn.net/zzllabcd/article/details/21380267现在页面用ajax的越来越多, 好多代码是通过js执行结果显示在页面的, 所以在scrapy抓取过程中就需要通过一个中间件来执行这个js代码, 这个可以通过scrapy webkit来完成.安装scrapy:sudo apt-get install pyt

转载 2015-01-15 17:34:01 · 2429 阅读 · 0 评论
scrapy结合webkit抓取js生成的页面

1 scedulescrapy 作为抓取框架，包括了spider,pipeline基础设施2 webkitscrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到，因此，一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依

转载 2015-01-15 16:29:30 · 1206 阅读 · 0 评论
scrapy如何针对不同的spider指定不同的参数

http://blog.csdn.net/zevolo/article/details/8788511scrapy中如何指定spider不用的参数，特别是item_pipeline？这里没有答案。首先，在scrapy中不直接支持这种方式一般都是通过pipeline的process_item中区分是否当前的pipeline作用到这个item上，这里有一个链接可以参

转载 2015-01-15 10:17:52 · 1986 阅读 · 0 评论
scrapy 下载图片 ImagesPipeline

http://segmentfault.com/q/1010000000413334http://bbs.byr.cn/#!article/Python/4379?p=1

转载 2015-01-13 19:04:23 · 11052 阅读 · 0 评论
Python replace()方法

http://www.w3cschool.cc/python/att-string-replace.htmlPython replace()方法描述Python replace() 方法把字符串中的 old（旧字符串）替换成 new(新字符串)，如果指定第三个参数max，则替换不超过 max 次。语法replace()方法语法：str.re

转载 2015-01-13 18:56:54 · 879 阅读 · 0 评论
Python 列表(list)操作

http://blog.csdn.net/facevoid/article/details/5338048创建列表sample_list = ['a',1,('a','b')]Python 列表操作sample_list = ['a','b',0,1,3]得到列表中的某一个值value_start = sample_list[0]end_valu

转载 2015-01-08 16:58:36 · 890 阅读 · 0 评论
在CentOS 安装 cx_Oracle

http://ihavegotyou.iteye.com/blog/1812548 以下是在CentOS安装 cx_Oracle的流程:准备阶段确认操作系统是32位还是64位(getconf LONG_BIT)确认当前python的版本(python --version)确认你要连接的oracle server version(select * from v$versi

转载 2015-02-04 10:54:59 · 1788 阅读 · 0 评论
python使用spynner抓取动态页面数据

http://www.comingcode.com/?p=275 这篇文章是我最近一直想完成的一篇文章，因为之前做的爬虫只能爬取静态页面的数据，但是现在这个时代，大部分的web页面都是动态的，经常逛的网站例如京东、淘宝等，商品列表都是js获取到后台数据后再组合成html展示出来的，单纯获取页面数据回来，而没有执行到js的话是无法看到商品数据列表信息的，这个可以通过两步来验

转载 2015-01-15 18:07:36 · 4661 阅读 · 0 评论
Scrapy下xpath基本的使用方法

http://www.cnblogs.com/huhuuu/p/3701017.htmlScrapy是基于python的开源爬虫框架，使用起来也比较方便。具体的官网档：http://doc.scrapy.org/en/latest/　　之前以为了解python就可以直接爬网站了，原来还要了解HTML，XML的基本协议，在了解基础以后，在了解下xpath的基础上，再使用正则表达式

转载 2015-01-15 16:32:26 · 10946 阅读 · 1 评论
centos 下安装scrapy过程及遇到的问题

问题：1. centos6.6下自带安装的是python2.6.6（yum使用不了python2.7），而我们使用scrapy需要使用的是python2.7，因此会有一些麻烦，幸运的是在python2.6.6和python2.7是可以共存的。vim /usr/bin/scarpy 去修改首行的内容，改为python2.7的路径（我的是/usr/local/bin/Python2.7），或

原创 2015-01-04 11:06:51 · 2039 阅读 · 0 评论
python程序有问题：错误提示：IndentationError:expected an indented block!

在python shell下报错 IndentationError:expected an indented block!调整缩进后不报错。

原创 2014-11-27 10:45:42 · 893 阅读 · 0 评论
TypeError: __init__() got an unexpected keyword argument ‘maxlength’

Django下出现这个错误，记录一下，貌似以前的版本是应该用maxlength，但是新版本里面使用max_length

转载 2014-11-26 21:18:29 · 4144 阅读 · 1 评论
使用scrapy,redis, mongodb实现的一个分布式网络爬虫

http://bbs.chinaunix.net/thread-4077320-1-1.html------使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。这是项目的地址:https://github.com/gnemoug/di

转载 2015-01-15 18:29:37 · 2944 阅读 · 1 评论
Python代码整理 2012

http://blog.csdn.net/tiaotiaoyly/article/details/8587809判断当前文件是否被直接执行，还是被当作模块加载[python] view plaincopyif __name__ == "__main__": main() 将工作目录(current work

转载 2015-01-13 18:54:40 · 827 阅读 · 0 评论
scrapy setting.py文件

为了防止网站不让我们获取数据，我们最好还是能够加上下面这句，这样就能基本伪装成为是浏览器打开网页获取数据了?1USER_AGENT='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safar

原创 2015-01-08 17:00:44 · 899 阅读 · 0 评论
centos 将python升级到2.7

查看python的版本[root@localhost ~] python -V Python 2.4.31.先安装GCCyum -y install gcc2.下载Python-2.7.3[root@localhost ~] wget http://python.org/ftp/python/2.7.3/Python-2.7.3.tar.bz

原创 2014-12-31 15:17:13 · 551 阅读 · 0 评论

QZC295919009的专栏

python

作者: knight_qzc

boost.python入门教程 ----python 嵌入c++

PIL不能正常使用exceptions.IOError: decoder jpeg not available

scrapy 乱码

Python yield 使用浅析

Django 实例

python webkit 异步抓取页面数据

scrapy 避免被禁止(ban)

python strip() split()函数

用python的BeautifulSoup分析html

Python正则表达式指南

CentOS 6.5安装pip

C/C++和Python的交互

C语言中调用python

python爬虫之Scrapy 使用代理配置

在windows下安装配置python开发环境及Ulipad开发工具

scrapy 在不同的Request之间传递参数的办法

python MySQLdb连接mysql失败 mysql_exceptions.OperationalError: (2002, "Can't connect to local MySQL

python 将base64字符串还原成图片保存

SyntaxError: Non-ASCII character ‘\xe5′ in file

Scrapy入门教程

Centos 6.4 python 2.6 升级到 2.7

scrapy js动态加载

scrapy结合webkit抓取js生成的页面

scrapy如何针对不同的spider指定不同的参数

scrapy 下载图片 ImagesPipeline

Python replace()方法

Python 列表(list)操作

在CentOS 安装 cx_Oracle

python使用spynner抓取动态页面数据

Scrapy下xpath基本的使用方法

centos 下安装scrapy过程及遇到的问题

python程序有问题：错误提示：IndentationError:expected an indented block!

TypeError: init() got an unexpected keyword argument ‘maxlength’

使用scrapy,redis, mongodb实现的一个分布式网络爬虫

Python代码整理 2012

scrapy setting.py文件

centos 将python升级到2.7

python

作者: knight_qzc

boost.python入门教程 ----python 嵌入c++

PIL不能正常使用exceptions.IOError: decoder jpeg not available

scrapy 乱码

Python yield 使用浅析

Django 实例

python webkit 异步抓取页面数据

scrapy 避免被禁止(ban)

python strip() split()函数

用python的BeautifulSoup分析html

Python正则表达式指南

CentOS 6.5安装pip

C/C++和Python的交互

C语言中调用python

python爬虫之Scrapy 使用代理配置

在windows下安装配置python开发环境及Ulipad开发工具

scrapy 在不同的Request之间传递参数的办法

python MySQLdb连接mysql失败 mysql_exceptions.OperationalError: (2002, "Can't connect to local MySQL

python 将base64字符串还原成图片保存

SyntaxError: Non-ASCII character ‘\xe5′ in file

Scrapy入门教程

Centos 6.4 python 2.6 升级到 2.7

scrapy js动态加载

scrapy结合webkit抓取js生成的页面

scrapy如何针对不同的spider指定不同的参数

scrapy 下载图片 ImagesPipeline

Python replace()方法

Python 列表(list)操作

在CentOS 安装 cx_Oracle

python使用spynner抓取动态页面数据

Scrapy下xpath基本的使用方法

centos 下安装scrapy过程及遇到的问题

python程序有问题：错误提示：IndentationError:expected an indented block!

TypeError: __init__() got an unexpected keyword argument ‘maxlength’

使用scrapy,redis, mongodb实现的一个分布式网络爬虫

Python代码整理 2012

scrapy setting.py文件

centos 将python升级到2.7

TypeError: init() got an unexpected keyword argument ‘maxlength’