python
文章平均质量分 54
knight_qzc
认真规划开心享受
展开
-
boost.python入门教程 ----python 嵌入c++
http://www.cnblogs.com/rocketfan/archive/2009/11/15/1603400.htmlboost.python 中 python 嵌入c++ 部分,网上找到的中文资料似乎都有些过时了,如 boost.python学习笔记 http://edyfox.codecarver.org/html/boost_python.html在bo转载 2015-02-05 12:58:10 · 871 阅读 · 0 评论 -
PIL不能正常使用exceptions.IOError: decoder jpeg not available
我这边是这么解决的:安装了sudo yum install -y libjpeg-devel之后仍然不行,在安装sudo pip install pillow成功,不报错————————————————————————————————————————————————http://blog.chinaunix.net/uid-24567872-id-3927355.htm原创 2015-01-14 17:10:49 · 755 阅读 · 0 评论 -
scrapy 乱码
http://www.addbook.cn/blog/scrapy%E4%B8%AD%E6%96%87%E7%BC%96%E7%A0%81%E9%97%AE%E9%A2%98http://www.pythonclub.org/python-basic/codec—————————————————————————————————————————————————————————转载 2015-01-08 17:00:26 · 3975 阅读 · 0 评论 -
Python yield 使用浅析
如何生成斐波那契數列斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个和第二个数外,任意一个数都可由前两个数相加得到。用计算机程序输出斐波那契數列的前 N 个数是一个非常简单的问题,许多初学者都可以轻易写出如下函数:清单 1. 简单输出斐波那契數列前 N 个数 def fab(max): n, a, b = 0, 0, 1 while转载 2015-01-05 19:15:55 · 428 阅读 · 0 评论 -
Django 实例
安装django: pip install Django==1.7.1测试是否安装成功>>> import django>>> djan.VERSION>>> django.VERSION(1, 7, 1, 'final', 0)创建项目:django-admin.py startproject mysite原创 2014-12-01 12:59:31 · 505 阅读 · 0 评论 -
python webkit 异步抓取页面数据
http://blog.csdn.net/cabing2005/article/details/9764379[python] view plaincopy#!/usr/bin/python from ghost import Ghost class FetcherCartoon: [py转载 2015-01-15 17:36:56 · 1051 阅读 · 0 评论 -
scrapy 避免被禁止(ban)
http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/practices.html避免被禁止(ban)有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础。 如果有疑问请考虑联系 商业支持 。下面是些处理这些站点的建议(tips):使用user转载 2015-01-13 11:28:42 · 979 阅读 · 0 评论 -
python strip() split()函数
http://blog.sina.com.cn/s/blog_a39910330101l0gy.html先看一个例子:>>> ipaddr = 10.122.19.10 File "", line 1 ipaddr = 10.122.19.10 ^SyntaxError: invalid syntax>转载 2015-01-08 16:57:34 · 6494 阅读 · 1 评论 -
用python的BeautifulSoup分析html
http://www.cnblogs.com/twinsclover/archive/2012/04/26/2471704.html序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSou转载 2015-01-15 17:39:05 · 729 阅读 · 0 评论 -
Python正则表达式指南
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。得益于这一点,在提供了正则表达式的语言里,正则转载 2015-01-15 16:28:30 · 584 阅读 · 0 评论 -
CentOS 6.5安装pip
yum intall python-pip________________________________________________________________________http://blog.csdn.net/cnyyx/article/details/25614669从pip官网 https://pypi.python.org/pypi/pip 下载p转载 2015-01-14 17:07:47 · 747 阅读 · 0 评论 -
C/C++和Python的交互
http://blog.sina.com.cn/s/blog_67ac78cf01010sjk.html#测试脚本def hello(s): print "hello world" print sdef arg(a, b): print 'a=', a print 'b=', b return a + b转载 2015-02-05 13:03:33 · 863 阅读 · 0 评论 -
C语言中调用python
http://wenku.baidu.com/link?url=AAISSxx5WwM-BEtKwpvqrw7Pobu8jWFWC2IBwcNd-UcR2UTdC2jEYv0CEdc5tw606sptCl6eSeFjhKC1_QXTB3B3lyIKRem2OunvtLsDoW注意 命名为test.py,因为python自带test模组且优先级高于用户的,所以程序在系统的test.py中找转载 2015-02-05 13:02:11 · 990 阅读 · 0 评论 -
python爬虫之Scrapy 使用代理配置
http://www.pythontab.com/html/2014/pythonweb_0326/724.html在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理)下面来说一下Scrapy如何配置代理,进行抓取1.在Scrapy工程下新建“middlewares.py”12转载 2015-01-15 18:11:06 · 2720 阅读 · 0 评论 -
在windows下安装配置python开发环境及Ulipad开发工具
http://www.cnblogs.com/huangcong/archive/2012/12/14/2818828.htmlPython的IDE也有不少,网上也有很多介绍. 我们选择国产 Python IDE:UliPad.这个IDE本身就是用 Python+wxPython编写的,小巧,功能全,特别适合Python初学者。这是 Ulipad 下载地址:http://cod转载 2015-01-15 09:22:38 · 642 阅读 · 0 评论 -
scrapy 在不同的Request之间传递参数的办法
scrapy 在不同的抓取级别的Request之间传递参数的办法,下面的范例中,parse_item通过meta传递给了parse_details参数item,这样就可以再parse_details抓取完成所有的数据后一次返回class MySpider(BaseSpider): name = 'myspider' start_urls = ( 'http://转载 2015-01-14 17:21:35 · 2841 阅读 · 0 评论 -
python MySQLdb连接mysql失败 mysql_exceptions.OperationalError: (2002, "Can't connect to local MySQL
我这边产生这个错误是因为在MySQLdb_connect中填写的是远程mysql数据库所在服务器的域名,而填写改为服务器的IP后成功运行。-----------------------------------------------------------------------------------------------------------------------------原创 2015-01-12 17:48:45 · 13403 阅读 · 0 评论 -
python 将base64字符串还原成图片保存
import os,base64 strs='''/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAoHBwgHBgoICAgLCgoLDhgQDg0NDh0VFhEYIx8lJCIfIiEmKzcvJik0KSEiMEExNDk7Pj4+JS5ESUM8SDc9Pjv/2wBDAQoLCw4NDhwQEBw7KCIoOzs7Ozs7Ozs7Ozs7Ozs7Ozs7Ozs7Oz原创 2015-01-14 17:16:33 · 48504 阅读 · 2 评论 -
SyntaxError: Non-ASCII character ‘\xe5′ in file
http://www.cnblogs.com/timeship/archive/2013/03/05/2945102.html在写一个抓取网页的小脚本,运行起来总是出现这个错误查了下Python的默认编码文件是用的ASCII码,你将文件存成了UTF-8也没用,解决办法很简单只要在文件开头加入 # -*- coding: UTF-8 -*- 或者 #coding=utf转载 2015-01-16 11:17:43 · 734 阅读 · 0 评论 -
Scrapy入门教程
1.新建工程:Domz为工程名scrapy startproject Domz生成的目录Domz的结构:dmoz/ scrapy.cfg dmoz/ __init__.py items.py pipelines.py settings.py spiders/ __ini原创 2015-01-04 19:18:40 · 1179 阅读 · 0 评论 -
Centos 6.4 python 2.6 升级到 2.7
http://blog.csdn.net/jcjc918/article/details/11022345一开始有这个需求,是因为用 YaH3C 替代 iNode 进行校园网认证时,一直编译错误,提示找不到 Python 的某个模块,百度了一下,此模块是在 Python2.7 以上才有的,但是系统的自带的Python是2.6版本,难怪一直连不上网。于是,继续百度google转载 2015-01-03 10:34:23 · 534 阅读 · 0 评论 -
scrapy js动态加载
http://blog.csdn.net/zzllabcd/article/details/21380267现在页面用ajax的越来越多, 好多代码是通过js执行结果显示在页面的, 所以在scrapy抓取过程中就需要通过一个中间件来执行这个js代码, 这个可以通过scrapy webkit来完成.安装scrapy:sudo apt-get install pyt转载 2015-01-15 17:34:01 · 2429 阅读 · 0 评论 -
scrapy结合webkit抓取js生成的页面
1 scedulescrapy 作为抓取框架,包括了spider,pipeline基础设施2 webkitscrapy 本身不能作为js engine,这就导致很多js生成的页面的数据会无法抓取到,因此,一些通用做法是webkit或者xmi_runner(firefox)。通过这个手段可以对于js生成的数据进行抓取。需要安装的包有python-webkit (相关依转载 2015-01-15 16:29:30 · 1206 阅读 · 0 评论 -
scrapy如何针对不同的spider指定不同的参数
http://blog.csdn.net/zevolo/article/details/8788511scrapy中如何指定spider不用的参数,特别是item_pipeline?这里没有答案。首先,在scrapy中不直接支持这种方式一般都是通过pipeline的process_item中区分是否当前的pipeline作用到这个item上,这里有一个链接可以参转载 2015-01-15 10:17:52 · 1986 阅读 · 0 评论 -
scrapy 下载图片 ImagesPipeline
http://segmentfault.com/q/1010000000413334http://bbs.byr.cn/#!article/Python/4379?p=1转载 2015-01-13 19:04:23 · 11052 阅读 · 0 评论 -
Python replace()方法
http://www.w3cschool.cc/python/att-string-replace.htmlPython replace()方法描述Python replace() 方法把字符串中的 old(旧字符串) 替换成 new(新字符串),如果指定第三个参数max,则替换不超过 max 次。语法replace()方法语法:str.re转载 2015-01-13 18:56:54 · 879 阅读 · 0 评论 -
Python 列表(list)操作
http://blog.csdn.net/facevoid/article/details/5338048创建列表sample_list = ['a',1,('a','b')]Python 列表操作sample_list = ['a','b',0,1,3]得到列表中的某一个值value_start = sample_list[0]end_valu转载 2015-01-08 16:58:36 · 890 阅读 · 0 评论 -
在CentOS 安装 cx_Oracle
http://ihavegotyou.iteye.com/blog/1812548 以下是在CentOS安装 cx_Oracle的流程:准备阶段确认操作系统是32位还是64位(getconf LONG_BIT)确认当前python的版本(python --version)确认你要连接的oracle server version(select * from v$versi转载 2015-02-04 10:54:59 · 1788 阅读 · 0 评论 -
python使用spynner抓取动态页面数据
http://www.comingcode.com/?p=275 这篇文章是我最近一直想完成的一篇文章,因为之前做的爬虫只能爬取静态页面的数据,但是现在这个时代,大部分的web页面都是动态的,经常逛的网站例如京东、淘宝等,商品列表都是js获取到后台数据后再组合成html展示出来的,单纯获取页面数据回来,而没有执行到js的话是无法看到商品数据列表信息的,这个可以通过两步来验转载 2015-01-15 18:07:36 · 4661 阅读 · 0 评论 -
Scrapy下xpath基本的使用方法
http://www.cnblogs.com/huhuuu/p/3701017.htmlScrapy是基于python的开源爬虫框架,使用起来也比较方便。具体的官网档:http://doc.scrapy.org/en/latest/ 之前以为了解python就可以直接爬网站了,原来还要了解HTML,XML的基本协议,在了解基础以后,在了解下xpath的基础上,再使用正则表达式转载 2015-01-15 16:32:26 · 10946 阅读 · 1 评论 -
centos 下安装scrapy过程及遇到的问题
问题:1. centos6.6下自带安装的是python2.6.6(yum使用不了python2.7),而我们使用scrapy需要使用的是python2.7,因此会有一些麻烦,幸运的是在python2.6.6和python2.7是可以共存的。vim /usr/bin/scarpy 去修改首行的内容,改为python2.7的路径(我的是/usr/local/bin/Python2.7),或原创 2015-01-04 11:06:51 · 2039 阅读 · 0 评论 -
python程序有问题:错误提示:IndentationError:expected an indented block!
在python shell下报错 IndentationError:expected an indented block!调整缩进后不报错。原创 2014-11-27 10:45:42 · 893 阅读 · 0 评论 -
TypeError: __init__() got an unexpected keyword argument ‘maxlength’
Django下出现这个错误,记录一下,貌似以前的版本是应该用maxlength,但是新版本里面使用max_length转载 2014-11-26 21:18:29 · 4144 阅读 · 1 评论 -
使用scrapy,redis, mongodb实现的一个分布式网络爬虫
http://bbs.chinaunix.net/thread-4077320-1-1.html------使用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫,底层存储mongodb集群,分布式使用redis实现, 爬虫状态显示使用graphite实现。 这是项目的地址:https://github.com/gnemoug/di转载 2015-01-15 18:29:37 · 2944 阅读 · 1 评论 -
Python代码整理 2012
http://blog.csdn.net/tiaotiaoyly/article/details/8587809判断当前文件是否被直接执行,还是被当作模块加载[python] view plaincopyif __name__ == "__main__": main() 将工作目录(current work转载 2015-01-13 18:54:40 · 827 阅读 · 0 评论 -
scrapy setting.py文件
为了防止网站不让我们获取数据,我们最好还是能够加上下面这句,这样就能基本伪装成为是浏览器打开网页获取数据了?1USER_AGENT='Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safar原创 2015-01-08 17:00:44 · 899 阅读 · 0 评论 -
centos 将python升级到2.7
查看python的版本[root@localhost ~] python -V Python 2.4.31.先安装GCCyum -y install gcc2.下载Python-2.7.3[root@localhost ~] wget http://python.org/ftp/python/2.7.3/Python-2.7.3.tar.bz原创 2014-12-31 15:17:13 · 551 阅读 · 0 评论