- 博客(25)
- 资源 (5)
- 收藏
- 关注
转载 Vim的Python编辑器详细配置过程 (Based on Ubuntu 12.04 LTS)
Vim的Python编辑器详细配置过程 (Based on Ubuntu 12.04 LTS)为什么要用vim编辑py文件?因为在Linux命令行中,缺少图形界面的IDE,vim是最佳的文本编辑器,而为了更好的编辑py文本,所以配置vim。 1. 安装完整版vim vi和vim的区别? 在Linux自带有vi编辑器,而vim是指vi improved,即vi升级版。区别
2013-11-30 00:05:40 2302 1
原创 #小练习 合并首字母相同的男孩、女孩姓名 (最终版)
版本一:#coding:utf-8#合并首字母相同的姓名,并以字典形式返回girls=['bernice','clarice','Amazon','June','alice']boys=['chris','arnold','bob','Davide']#合并列表stu=girls+boys'''如果两个列表中含有共同元素,则使用for循环变量,append元素for i
2013-11-25 16:52:56 1056
原创 输出文件中不包含指定的多个排除词的行内容(双重遍历)
#coding:utf-8import sysimport fileinputexcludeWord=[u'图片',u'贴图',u'海洋',u'青海',u'陕西',u'台',u'家居',u'陕西',u'重庆',u'台湾',u'港澳',u'辽宁',u'游戏',u'上海',u'河南',u'湖南',u'江苏',u'重庆',u'黑龙江',u'哈尔滨',u'湖北',u'江淮',u'安徽',u'母婴
2013-11-22 15:20:25 1420
转载 linux中tomcat内存溢出解决办法
常见的一般会有下面三种情况: 1.OutOfMemoryError: Java heap space 2.OutOfMemoryError: PermGen space 3.OutOfMemoryError: unable to create new native thread. 前两种通常一起进行操作,也就是通过下面的 linux下在catalina.sh文件最前面加入
2013-11-22 09:46:28 20485
原创 将两个列表元素组成字典
#coding:utf-8a=['a','b','c']b=[1,2,3]s=zip(a,b)d={}for k,v in s: d[k]=vprint d
2013-11-12 18:17:41 2079
转载 python:解析html(HTMLParser、SGMLParser)
其实python里面有xml.dom模块,但是这次却不能用,为啥呢?因为服务器传回的html从xml角度看不是良构的,没有闭合的标签、没有被注释掉的javascript和css,xml.dom没法处理,这个时候要用sgmllib。sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个
2013-11-12 18:11:42 6497
原创 #小练习 使用SGMLParser获取url链接
#获取链接#coding:utf-8from sgmllib import SGMLParserclass urlparser(SGMLParser): def reset(self): self.result=[] SGMLParser.reset(self) def start_a(self,attrs): #学习此
2013-11-12 16:52:10 1357
转载 #小练习 SGMLParser 解析 HTML
#coding:utf-8from sgmllib import SGMLParserclass GetIdList(SGMLParser): def reset(self): self.IDlist=[] self.flag=False self.getdata=False self.verbatim = 0
2013-11-12 15:52:18 1654
原创 #小练习 SGMLParser练习
SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。SGMLParser类里面包含了很多内部方法,开始读取html后,遇到相应的数据就会调用其对应的方法,最重要的方法有三个:start_t
2013-11-12 15:50:04 1197 1
转载 SGMLParser
http://www.open-open.com/lib/view/1329700631343python提供了SGMLParser类用于html文件的解析。用户只需从SGMLParser类继承子类,并在子类中对html文件做具体处理。例如 具有如下结构的html文件感兴趣内容1感兴趣内容2……感兴趣内容n内容1内容2……内容n我们尝试
2013-11-12 15:25:51 4696
原创 #小练习 使用正则抓取oschina博客专区首页数据
使用正则抓取oschina博客专区首页数据,包括:博客链接地址、标题、摘要、发布人、发布时间#coding:utf-8import urllib2,redef getpage(url): f=urllib2.Request(url) #此时添加header,模拟浏览器访问,否则会报错:HTTPError: HTTP Error 403: Forbidden
2013-11-11 17:22:16 1341
原创 #小练习 解析HTML文件并使用字典保存链接
#coding:utf-8from HTMLParser import HTMLParserimport pprintclass myhtml(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.d={} self.flag=None sel
2013-11-11 12:06:03 1038
原创 #小练习 使用HTMLParser获取data时注意事项
from HTMLParser import HTMLParserclass myHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self.links=[] def handle_starttag(self,tag,attrs): if t
2013-11-08 21:05:07 1420
原创 #小练习 使用字典保存HTMLParser解析的数据
练习目的:使用字典保存HTMLParser解析的数据#coding:utf-8from HTMLParser import HTMLParserclass myhtmlParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) #定义一个字典d,保存data与href的信息
2013-11-08 20:51:55 1622
转载 Python之HTML的解析(网页抓取一)
对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。 HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它主要的用
2013-11-08 20:32:21 32070 1
原创 #小练习 输出两个数的最大公约数
#coding:utf-8def main(a,b): '输出两个数的最大公约数' #比较a、b的大小 t=cmp(a,b) #a、b相等时返直接返回 if not t: return a #如果a>b,讲a、b的值交换,保证b值较大 if t>0: a,b=b,a #倒序遍历较小a for
2013-11-08 11:16:10 1020
原创 提取网易的链接及链接名称
import urllib2,re#读取网页信息def getcontent(url): request=urllib2.Request(url) f=urllib2.urlopen(request) content= f.read() return content#使用re提取所需信息def pars_content(url): content
2013-11-07 14:02:24 1255
原创 修改类属性
例子一:一下是修改类属性,class counter: count = 0 def __init__(self): self.__class__.count+=1 #此时类属性被类和所有类实例共享print counter.count # 0c=counter()print c.count # 1d=counter() print d.
2013-11-06 16:48:22 781
转载 Linux TOP命令 按内存占用排序和按CPU占用排序
1:在命令行提示符执行top命令2:输入大写P,则结果按CPU占用降序排序。 输入大写M,结果按内存占用降序排序。
2013-11-06 14:38:47 1440
原创 多态 分发
#coding:utf-8def output_xml(name): print 'XML:%s' % namedef output_html(name): print 'HTML:%s' % namedef output_doc(name): print 'DOC:%s' % namedef putdoc(types,name): print t
2013-11-05 19:11:19 863
原创 #小练习 输出模块中方法及其docstring
divide into python 中例子,输出模块的函数及docstring文档内容。以下例子是通过调用getdoc模块中的main方法,输出imp_main模块中方法及docstringimp_main.py :#coding:utf-8#运行此模块时,调用此函数def runself(): 'execute this method when run thi
2013-11-05 18:17:32 1016
原创 #小练习 重定向与sys.stdout对象
import sysclass RedictTarget(object): '''这个类用于演示重定向,讲sys.stdout保存至一个变量中, 然后将sys.stdout指向某个文件对象,输出内容至该文件对象''' def __init__(self,filename): self.f=open(filename,'w') #保存重定
2013-11-05 16:10:16 1291
原创 #小练习 类与文件对象
import sys,osclass RedictTarget(object): '''这个类用于演示重定向,讲sys.stdout保存至一个变量中, 然后将sys.stdout指向某个文件对象,输出内容至该文件对象''' try: def __init__(self,filename): f=open(filename,'w')
2013-11-05 15:39:57 782
原创 #小练习类与文件对象
import osclass writeDoc: #创建文件对象 def __init__(self,name): self.name=name try: f=open(name,'w+') self.f=f except IOError,e: print e
2013-11-05 12:09:34 785
原创 if ...__name__使用技巧总结
if ... __name__ 可以实现运行本模块、和在其他模块中导入该模块时调用不同的函数,在这两种情况下,对该模块的函数进行拆分调用。如果是运行本模块,则执行在__name__=="__main__" 中调用的函数。如果是在模块B中导入模块A,则在导入模块A时,执行__name__=="__main__" 对应的else中的函数。例子:imp_main.py
2013-11-01 14:51:52 925
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人