Python
文章平均质量分 75
wangran51
这个作者很懒,什么都没留下…
展开
-
python补全插件
1.http://www.vim.org/scripts/script.php?script_id=8502.解压pydiction3/创建~/.vim/after/ftplugin/ 文件夹4.complete-dict(字典文件) python_pydiction.vim 文件 拷贝到~/.vim/after/ftplugin/5 在 ~/.vimrc 中添加 "...2012-06-27 11:55:00 · 91 阅读 · 0 评论 -
python 爬虫抓站
python 爬虫抓站 记录(虾米,百度,豆瓣,新浪微博)python 下用到的库,urllib, urllib2, BeautifulSoup, cookielib, mechanize, re看Firebug模拟浏览器行为。1. 虾米虾米不用登陆,没有IP限制,最简单。Python抓了下Xiami电台的试听数里用的是import urllib2 con...2012-07-20 15:29:00 · 237 阅读 · 0 评论 -
scapy递归爬
前面介绍了Scrapy如何实现一个最简单的爬虫,但是这个Demo里只是对一个页面进行了抓取。在实际应用中,爬虫一个重要功能是”发现新页面”,然后递归的让爬取操作进行下去。发现新页面的方法很简单,我们首先定义一个爬虫的入口URL地址,比如《Scrapy入门教程》中的start_urls,爬虫首先将这个页面的内容抓取之后,解析其内容,将所有的链接地址提取出来。这个提取的过程是很简单的,通过一...2012-07-20 16:17:00 · 317 阅读 · 0 评论 -
scapy安装and简介
在《开源python网络爬虫框架Scrapy介绍》一文中介绍了Scrapy这个Python爬虫框架。Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、site...2012-07-20 16:19:00 · 136 阅读 · 0 评论 -
pydev eclipse插件安装
今天决定重新捡起以前落下的知识,开始对python的学习。熟话说,工欲善其事,必先利其器。搭建一个良好的IDE环境是为了以后更好的使用python语言。通过百度或者Google搜索的结果,最后我决定使用Eclipse + pydev作为我的python编程环境。操作系统版本:64位 windows 7 旗舰版Eclipse版本:Helios 3.6pydev版本:1.4.8.2881JDK版...2012-07-23 16:02:00 · 75 阅读 · 0 评论 -
python list
创建列表 sample_list = ['a',1,('a','b')]Python 列表操作 sample_list = ['a','b',0,1,3]得到列表中的某一个值 value_start = sample_list[0] end_value = sample_list[-1]删除列表的第一个值 del sample_list[0]在列表中插入一个值 sample_li...2012-07-24 09:46:00 · 82 阅读 · 0 评论 -
List Tuple Dictionary 区别
Dictionary 是Python的内置数据类型之一, 它定义了键和值之间一对一的关系。每一个元素都是一个 key-value 对, 整个元素集合用大括号括起来您可以通过 key 来引用其值, 但是不能通过值获取 key在一个dictionary 中不能有重复的 key。给一个存在的 key 赋值会覆盖原有的值。在任何时候都可以加入新的 key-value 对。这种语法同修改存在...2012-07-24 09:48:00 · 155 阅读 · 0 评论 -
Linux下Python基础调试
当手边没有IDE,面对着python调试犯愁时,你就可以参考下本文;(pdb 命令调试)参考:http://docs.python.org/library/pdb.html和 (pdb)help首先你选择运行的 pypython -m pdb myscript.py(Pdb) 会自动停在第一行,等待调试,这时你可以看看 帮助(Pdb) h说明下这几个关键 命令&g...2012-11-07 11:46:00 · 174 阅读 · 0 评论 -
python中dict和list排序
1、list排序 列表的排序是python内置功能,自身含有sort方法 如: >>> s=[2,1,3,0] >>> s.sort() [0, 1, 2, 3] 2、dict排序 对字典的排序,因为每一个项包括一个键值对,所以要选择可比较的键或值进行排序 sorted(iterable[, cmp[, key[, reverse]]] cmp和key一般使用...2012-11-08 22:11:00 · 98 阅读 · 0 评论 -
python spider code
Python代码#FileName:toolbox_insight.pyfromsgmllibimportSGMLParserimportthreadingimporttimeimporturllib2importStringIOimportgzipimportstringimportos#rewriteSGMLParse...2012-07-20 15:19:00 · 153 阅读 · 0 评论 -
python crawler(2)
以前写过一篇使用python爬虫抓站的一些技巧总结,总结了诸多爬虫使用的方法;那篇东东现在看来还是挺有用的,但是当时很菜(现在也菜,但是比那时进步了不少),很多东西都不是很优,属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本2...2012-07-20 15:08:00 · 149 阅读 · 0 评论 -
python crawler(1)
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。 - 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少...2012-07-20 15:07:00 · 100 阅读 · 0 评论 -
python类型转换
python类型转换 Java代码函数 描述int(x [,base ]) 将x转换为一个整数long(x [,base ]) 将x转换为一个长整数float(x ) 将x转换到一个浮点数complex(real [,imag ]) 创建一个复数str(x ) 将对象 x 转换为字符串repr(x ) 将对象 x 转换为表达式字符串eval(str ) 用...2012-07-13 10:00:00 · 66 阅读 · 0 评论 -
python正则
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,whatever。尊重作者的劳动,转载请注明作者及原文地址 >.<html1. 正则...2012-07-16 16:26:00 · 93 阅读 · 0 评论 -
python匹配中文
由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。 参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe...2012-07-16 16:27:00 · 787 阅读 · 1 评论 -
python读写
Python读写文件 1.open 使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object = open('thefile.txt') try: all_the_text = file_object.read( ) finally: file_object.close( )注:不能把open语句放...2012-07-16 17:02:00 · 92 阅读 · 0 评论 -
python路径文件api
1: os.listdir(path) //path为目录 功能相当于在path目录下执行dir命令,返回为list类型 print os.listdir('..') 2: os.path.walk(path,visit,arg) path :是将要遍历的目录 visit :是一个函数指针,函数圆形为: callback(arg,dir,fileList) 其中arg为为传给walk的arg , ...2012-07-17 08:50:00 · 103 阅读 · 0 评论 -
pythonGB2312乱码问题
unc = stringa.decode("gb2312")print unc.encode("utf-8") LovelyPython中的通用解决方案,使用chardet模块,该模块是用来检测目标编码的 [python]view plaincopy importchardet,osdef_smartCode(item):codedet...2012-07-19 15:52:00 · 536 阅读 · 0 评论 -
python文件读写2
最基本的文件操作当然就是在文件中读写数据。这也是很容易掌握的。现在打开一个文件以进行写操作: 1. fileHandle = open ( 'test.txt', 'w' ) fileHandle = open ( 'test.txt', 'w' ) ‘w'是指文件将被写入数据,语句的其它部分很好理解。下一步就是将数据写入文件: 1. fileHandle.write ( 'This is a t...2012-07-19 16:00:00 · 103 阅读 · 0 评论 -
python debug【】
python 语言如何debug2012-04-04 22:09一直喜欢使用notepad++来写小规模的python脚本。喜欢这样快速的开发脚本,不过一旦遇到逻辑问题就抓瞎了。不知道该怎么debug 脚本,就只能一行一行的去分析什么地方出问题了。今天发现python怎么debug了,在python的用户手册上,lib手册的第24章,使用python -m pdb test...2012-07-19 16:10:00 · 175 阅读 · 0 评论 -
Python list 操作
创建列表 sample_list = ['a',1,('a','b')]Python 列表操作 sample_list = ['a','b',0,1,3]得到列表中的某一个值 value_start = sample_list[0] end_value = sample_list[-1]删除列表的第一个值 del sample_list[0]在列表中插入一个值 sample_li...2012-11-08 22:11:00 · 82 阅读 · 0 评论 -
抓取网页并解析HTML
http://www.lovelucy.info/python-crawl-pages.html我觉得java太啰嗦,不够简洁。Python这个脚本语言开发起来速度很快,一个活生生的例子是因有关政策verycd开始自我阉割,有网友为了抢救资源,把整个verycd站爬了下来,镜像为SimpleCD.org。看了一下爬虫源代码,其实挺简单。使用方法:import urllib2 conten...2012-08-09 16:53:00 · 186 阅读 · 0 评论 -
PyMining
PyMining-开源中文文本数据挖掘平台 Ver 0.1发布项目首页:http://code.google.com/p/python-data-mining-platform/(可能需)目前已经在该googlecode中加入了Tutorial等内容,可以在wiki中查看 项目介绍(复制自项目首页的说明):这是一个能够根据源数据(比如说用csv格式表示的矩阵,或者...2013-01-09 11:47:00 · 181 阅读 · 0 评论 -
utf-8读文件
for line in f: vec = line.split("\t") line = vec[0] target = int(vec[1]) y.append(target) wordList = self.segmenter.Split(line.decode("utf-8"))2013-01-09 13:34:00 · 97 阅读 · 0 评论 -
python set使用
转载自:http://hi.baidu.com/����_xu/blog/item/5b9650c513bd3f049d163d8b<wbr style="line-height:21px; font-size:14px; font-family:simsun; color:rgb(70,70,70)"><span style="line-height:21px; font-s...2013-01-09 13:44:00 · 197 阅读 · 0 评论 -
bisect
from bisect import bisect_lefta = ['liu', 'yuan', 'is', 'a', 'chinese']bisect_left(a, 'is')此模块可以查找已知的element在序列中的index(从左向右找出第一个) Python Doc http://docs.python.org/release/2.5...2013-01-11 16:30:00 · 109 阅读 · 0 评论 -
lambda dict sort
dic = {'a' : 31, 'b' : 5, 'c' : 3, 'd' : 4, '33' : 56, 'd' : 0} 想把dic的value按照从大到小排序(value都是整数)。 写法如下:sorted(dic.iteritems(), key=lambda d:d[1], reverse = False ) 呵呵,看了是不是觉得有点晕?没关系。慢慢来。 先看lambda函数是什么意...2013-01-17 11:45:00 · 99 阅读 · 0 评论 -
lambda sort
dic = {'a':31, 'bc':5, 'c':3, 'asd':4, '33':56, 'd':0} 想把dic的value按照从大到小排序(value都是整数)。 写法如下:sorted(dic.iteritems(), key=lambda d:d[1], reverse = False ) 呵呵,看了是不是觉得有点晕?没关系。慢慢来。 先看lambda函数是什么意思? >&g...2013-01-17 11:46:00 · 120 阅读 · 0 评论 -
使用python 提取html文件中的特定数据
python提供了SGMLParser类用于html文件的解析。用户只需从SGMLParser类继承子类,并在子类中对html文件做具体处理。例如 具有如下结构的html文件 [html]view plaincopy <divclass='entry-content'><p>感兴趣内容1</p><p>...2013-07-17 22:11:00 · 213 阅读 · 0 评论 -
Windows下打印utf-8文件
估计入门时都会遇到的。我是在windows下用的Python25自带的IDLE编辑运行的,发现运行脚本得出的结果有一些中文显示是乱码,但有一些是 正常的。百思不得其解。首先查看了一下源文件的编码格式,是UTF-8。经过搜索再搜索,调试再调试,也换了几个编译器,发现比IDLE还糟糕(可能需要 进行encode设置)。问题终于解决了,一共花了俺将近5个小时,写在这里,希望遇到问题的人能搜索到这里...2013-07-18 13:29:00 · 121 阅读 · 0 评论 -
python No-ASCII character ,编码错误
python出现Non-ASCII character '\xe7' in file ex6.py on line 1, but no encoding declare错误 python中出现Non-ASCII character '\xe7' in file ex6.py on line 1, but no encoding declare的错误可按照错误建议网址查看h...2013-01-09 10:39:00 · 278 阅读 · 0 评论 -
python dict sorted
1、 准备知识:在python里,字典dictionary是内置的数据类型,是个无序的存储结构,每一元素是key-value对:如:dict = {‘username’:‘password’,‘database’:‘master’},其中‘username’和‘database’是key,而‘password’和‘master’是value,可以通过d[key]获得对应值value的引用...2012-12-26 21:28:00 · 171 阅读 · 0 评论 -
Python Dict用法
python]dictionary方法说明2007-05-19 23:24申明 m={}; [python]dictionary方法说明2007-03-13 18:10OperationResultNoteslen(a)the number of items ina 得到字典中元素的个数 a[k]the i...2012-12-26 20:29:00 · 90 阅读 · 0 评论 -
python IO
1.open使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。file_object=open('thefile.txt')try: all_the_text=file_object.read( )finally: file_object.close( )注:不能把open语句放在try块里,因为当打开文件...2012-08-09 16:57:00 · 85 阅读 · 0 评论 -
sgmllib Introduction
8.2.sgmllib.py介绍 HTML处理分成三步:将HTML分解成它的组成片段,对片段进行加工,接着将片段再重新合成 HTML。第一步是通过sgmllib.py来完成的,它是标准Python库的一部分。理解本章的关键是要知道HTML不只是文本,更是结构化文本。这种结构来源于开始与结束标记的或多或少分级序列。通常您并不以这种方式处理HTML,而是以...2012-08-10 16:47:00 · 214 阅读 · 0 评论 -
python for
本文讲述了 Python for 循环。for 循环用于迭代 Python 集合中的项目,集合包括前面的 “探索 Python” 文章中讨论的 Python tuple、string 和 list 容器类型。通过使用 range(或 xrange)方法,for 循环还可用于访问某个container 类型中的元素。另外,还可以使用 range 方法在 for 循环内对一组语句执行特定次数。 ...2012-11-20 19:35:00 · 105 阅读 · 0 评论 -
解决UnicodeEncodeError: 'ascii' codec can't encode
#coding = GBK#coding = utf-8解决UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3问题转自:http://cooler1217.iteye.com/blog/1465335异常: 'ascii' codec can't encode characters 字...2012-11-22 16:48:00 · 120 阅读 · 0 评论 -
Python 二维数组
Python数组的应用中在实际编程中是一个非常重要的应用技术,作为Python编程人员来说,必须要熟练的掌握这方面的所有应用技巧。那么,接下来,我们将会通过对Python二维数组的理解来为大家解读这方面的知识。Python中没有数组的数据结构,但列表很像数组,如: a=[0,1,2]这时a[0]=0, a[1]=1, a[[2]=2,但引出一个问题,即如果数组a想定义为0到9...2012-08-19 17:19:00 · 508 阅读 · 0 评论 -
排序Python
一、字典排序在程序中使用字典进行数据信息统计时,由于字典是无序的所以打印字典时内容也是无序的。因此,为了使统计得到的结果更方便查看需要进行排序。Python中字典的排序分为按“键”排序和按“值”排序。1、按“值”排序按“值”排序就是根据字典的值进行排序,可以使用内置的sorted()函数。sorted(iterable[, cmp[, key[, reverse]]]) ...2013-06-20 14:37:00 · 96 阅读 · 0 评论 -
python class属性
Class 有一些特殊的属性,便于我们获得一些额外的信息。>>> class Class1(object): """Class1 Doc.""" def __init__(self): self.i = 1234>>> Class1.__doc__ # 类型帮助信息'Class1 Doc.'>2012-12-26 20:08:00 · 99 阅读 · 0 评论