python
qingxili
这个作者很懒,什么都没留下…
展开
-
python编码方式
源文件编码 在源文件开头 # -*- coding: utf-8 -*- 设置编码方式python 的默认编码方式是ascii编码设置成utf-8 编码,并显示输出,有时IDLE的输出和系统输出不同,需要转换一下import sysstdout = sys.stdoutreload (sys)sys.stdout = stdoutsys.setdefaul原创 2015-04-12 22:38:48 · 472 阅读 · 0 评论 -
python 之文件操作
file_object = open('thefile.txt')try: all_the_text = file_object.read( )finally: file_object.close( 使用open打开文件后一定要记得调用文件对象的close()方法。比如可以用try/finally语句来确保最后能关闭文件。注:不能把open语句放在try块里,因为当转载 2015-04-12 23:01:14 · 303 阅读 · 0 评论 -
利用lxml中的etree 查询节点的某些属性值
import urllib2from lxml import etreeuser_agent ='Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'headers = { 'User-Agent' : user_agent }myUrl='https://soc原创 2015-04-12 18:58:24 · 73521 阅读 · 0 评论 -
python xpath 基本用法
在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息;以下是关于xpath的一些基本用法:在介绍XPath的匹配规则之前,我们先来看一些有关XPath的基本概念。首先要说的是XPath数据类型。XPath可分为四种数据类型:节转载 2015-04-12 17:22:26 · 844 阅读 · 0 评论 -
python etree 输出某个节点下的所有节点的文本内容
def Printnode(node): if node.text is not None: print node.text fw.write('\n'+node.text) if(list(node)):原创 2015-04-13 17:26:09 · 3805 阅读 · 0 评论 -
Python多线程
Python多线程 Python中实现多线程有两种方式,一种基于_thread模块(在Python2.x版本中为thread模块,没有下划线)的start_new_thread()函数,另一种基于threading模块的Thread类。 其实Python的多线程编程不能真正利用多核的CPU,但是用开源模块使你的计算压力分布到多核CPU上......... 一.使用start_new转载 2015-04-14 00:09:17 · 382 阅读 · 0 评论 -
urlopen error [errno 10060]的解决思路
当用多线程爬取某个网站的数据的时候,爬取一段时间后,总出现urlopen error [errno 10060]的错误,结果线程无端的被挂掉,看到网上别人的经验,原来是 如果用多个线程爬去某个网站的数据,每次连接完的时候,需要sleep(1)一会,不然该网站服务端的防火墙会ban掉你的connect。so 按照这种解决方法,果然不再出现urlopen error [errno 10060]的异原创 2015-04-17 21:41:49 · 5645 阅读 · 4 评论 -
lxml
http://lxml.de/xpathxslt.html转载 2015-06-02 13:55:32 · 338 阅读 · 0 评论