- 博客(31)
- 资源 (9)
- 收藏
- 关注
原创 [python爬虫]使用urllib函数urlretrieve报错[socket error][Errno 10054]
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。 由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法: 直接使用urllib自带的ope
2015-04-26 12:34:12 8961 2
原创 [python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python#! -*- coding: utf-8 -*-#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"import urllib,urllib2i
2015-04-26 12:14:56 1863
原创 [python]格式化输出
下面代码就能够完全说明问题了name = 'name'age = 22print("I'm %s. I'm %d year old" % (name, age))
2015-04-23 12:10:32 758
原创 [python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制; 此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python#! -*- coding: utf-8 -*-#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif
2015-04-23 12:09:07 1196
原创 [python][爬虫]从网页中下载图片
说明:仅为测试下载图片、正则表达式 测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子 以下代码将第一页的图片全部下载到本程序根目录#!/usr/bin/env python#! -*- coding: utf-8 -*-import urllib,urllib2import re#返回网页源代码def getHtml(url): html = urllib2.urlopen
2015-04-23 11:33:46 1570
原创 [python]urllib与urllib2的常用函数
可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.urlopen可以接受Request对象作为参数,从而可以控制HTTP Request的headers,进而实现模拟浏览器、模拟登录等操作。 做HTTP Request时应当尽量使用urllib2库,但是urllib.urlretrieve函数以及urllib.quote等一系列quote和unquote功能没有被加入ur
2015-04-23 11:22:31 1970
原创 Sublime下python 报错[Decode error - output not utf-8]解决办法
因为是编码问题,python默认使用ascii编码,一般情况下再开头加上以下语句即可解决 #!-*- coding:utf-8 -*-但是这只是“通知”python利用utf8的编码来解析其中的字符,但如果需要处理的是其他非utf8编码的字符的话,python就会出现上面错误了。解决方法:1、临时办法,直接告知python需要处理的字符的编码格式,例如:decode('gbk')2、
2015-04-22 20:40:11 9646 1
原创 [python]糗百热点爬虫v2.0【15/4/21更新】
刚刚测试了糗百爬虫,结果第二天糗百的源代码就换格式了= = 重新改了正则表达式发上来:#! -*- coding:utf-8 -*-#! usr/bin/python'''#=====================================================# FileName: Spider_qb.py# Describe: 从糗百下载段子并依次播放#
2015-04-21 23:24:02 804
原创 [python]糗百热点爬虫
有小部分的修改,并加入详细注释#! -*- coding:utf-8 -*-#! usr/bin/python'''#=====================================================# FileName: Spider_qb.py# Describe: 从糗百下载段子并依次播放# Modifier: sunny# Sinc
2015-04-20 16:14:45 873
原创 [python]包含中文的list输出时乱码
先看代码:item = [['2015',u'中国'],['2013','nian份']]print itemprint item[0][1]输出结果: 在此处有相关讨论 解决办法: python2中,list若包含中文,整体输出时是以十六进制输出的; 链接中的讨论提供的方法试过,没成功。看来python2中只能以for来单独输出了。 当然了python3应该是解决了此类问题的。
2015-04-19 15:17:57 5921
原创 python模拟登录http请求中的Accept-Language
Accept-Language: Zh-CN, zh;q=0.8, en-gb;q=0.8, en;q=0.7其中,最佳语言为中文-中国(默认权重为1),其次为中文,权重为0.8,再次为英国英语,权重为0.8,最后为通用英语,权重0.7
2015-04-18 11:28:10 3444
原创 python模拟登录http请求中的Accept-Language
Accept-Language: Zh-CN, zh;q=0.8, en-gb;q=0.8, en;q=0.7
2015-04-18 11:23:20 1342
原创 登录窗口设计简单测试步骤
首先参考:http://bbs.qter.org/forum.php?mod=viewthread&tid=12,详细看过以上教程一遍后,不在参考以上教程,而按照如下步骤独立完成登录界面设计,这样在对设计的流程和步骤的把握中形成自己的认识,增强学习效果:1、新建qt gui应用2、在主窗口中添加按钮或者进行其他设计,如果仅为测试不需要对主窗口进行更改直接进入第3步3、工
2015-04-17 10:56:58 1618
原创 Qt多窗口界面设计的简单测试步骤
快速学习测试如何建立多窗口应用程序参考:http://bbs.qter.org/forum.php?mod=viewthread&tid=11&extra=page%3D1 ,可以参考以上网站,教程的内容详细看过一遍之后,参考以下设计步骤自己一遍做出来,最好不要一遍对照教程一遍在自己电脑上一点点补充,这样学习效果可能不够好。1、新建qt gui应用 2、在主窗口中添加按钮或者进行其
2015-04-16 22:56:43 2989
转载 Python正则表达式(增加详细示例code)
正则表达式在Python爬虫中的作用就像是老师点名时用的花名册一样,是必不可少的神兵利器。以下内容转自CNBLOG一、 正则表达式基础 1.1.概念介绍 正则表达式是用于处理字符串的强大工具,它并不是Python的一部分。 其他编程语言中也有正则表达式的概念,区别只在于不同的编程语言实现支持的语法数量不同。 它拥有自己独特的语法以及一个独立的处理引擎,在提供了正则表达式的语言里,正则表达式的
2015-04-13 16:48:54 3293 1
原创 系统学习python语法
之前参考网络博客和其他教程,写了一个简单的python小爬虫,在继续往下进行之前觉得有必要系统地学习一下python基础课程,并在此一并做笔记记录,同时方便后来人。目前参考的网站有:简明Python教程,作为基本参考使用Python Introduction,google的课程,作为每学一段的复习、检测,并用官方习题练手Python 基础教程,参考过stackove
2015-04-06 21:00:08 529
原创 百度贴吧爬虫【练手】
参考这个博客,看前面几章没什么感觉,还是到了这一章,参考实际的例子,自己动手写个东西出来的时候,需要自己查string、open等用法,边查边记边写理解的透彻。整体是照葫芦画瓢,为了练手用,也加了一些指定下载目录,默认下载目录等函数,可以直接运行#! -*- coding:utf-8 -*-#! usr/bin/python# 爬贴吧测试程序import string,urllib2
2015-04-06 10:59:36 1226
原创 python输出不换行(同一行输出不同类型数据)
不同类型的数据输出在同一行,在行尾加","即可:#! -*- coding:utf-8 -*- #加这一行可以在文件中使用中文print 'This is a string + int',print '12 + 13 =',print 12+13#另一种方式,在命令行中输出时不换行,还会替换掉原来的一行for i in xrange(1,1000): print 'Downloa
2015-04-02 15:54:49 9115
原创 string的操作
常用函数测试:#! -*- coding:utf-8 -*-import strings = 'Yes! This is a string'print '原字符串:' + sprint '小写:' + s.lower()print '大写:' + s.upper()print '大小写转换:' + s.swapcase()print '首字母大写:' + s.capitalize
2015-04-02 15:44:11 1178
flatland皮肤-sublime text皮肤
2015-03-29
Qt Creator的主题修改文件
2014-09-14
Qt Creator配色方案
2014-09-14
番茄助手2023版本 可用于6.0到2012
2014-05-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人