Python&爬虫
文章平均质量分 83
不净之心
这个作者很懒,什么都没留下…
展开
-
python字符串编码判断
[size=large][color=darkblue]Python 字符编码判断[/color][/size] [url]http://blog.sina.com.cn/s/blog_44c781ec0100sgsh.html[/url][url]http://my.oschina.net/eonezhang/blog/125440[/url][code="python"]def...原创 2013-09-30 14:13:49 · 306 阅读 · 0 评论 -
python类型转换
[url]http://jayzotion.iteye.com/blog/349654[/url]python类型转换 函数 描述 [code="python"]int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) ...原创 2013-10-01 14:12:59 · 843 阅读 · 0 评论 -
python requests 下载图片和数据库读取
[color=red][size=x-large]python requests 下载图片[/size][/color][code="python"]def downloadImageFile(imgUrl): local_filename = imgUrl.split('/')[-1] print "Download Image File=", local_filenam...原创 2013-10-02 15:56:05 · 531 阅读 · 0 评论 -
python: json,base64 的使用
JSON1. import json2. json.dumps() json obj => string3. json.load() string => json objBase64[code="python"]import base64import StringIOa = "this is a test"b = base64.encodestring(a)...原创 2013-10-06 19:12:44 · 855 阅读 · 0 评论 -
python对文件的创建等处理
[url]http://www.qttc.net/201209207.html[/url][color=darkblue]import os[/color]主要涉及到三个函数1、[color=darkblue]os.path.exists[/color](path) 判断一个目录是否存在2、[color=darkblue]os.makedirs[/color](path) 多层创建...原创 2013-10-06 21:24:09 · 123 阅读 · 0 评论 -
python + request + lxml的几个例子
例子没有加入[color=darkblue]失败后重做的功能[/color],这个也可以考虑增加。第三个例子加入了[b][color=red]访问频率控制[/color][/b]遍历图片的例子[color=red]加入多线程,明显爬得快很多[/color][color=red][size=x-large]解析163新闻列表的例子:[/size][/color][code="py...原创 2013-10-06 22:09:52 · 415 阅读 · 0 评论 -
问题: Max retries exceeded with url
解决一:[url]http://stackoverflow.com/questions/15431044/can-i-set-max-retries-for-requests-request[/url][code="python"]requests.adapters.DEFAULT_RETRIES = 5[/code]解决二:[url]http://obroll.com/max...原创 2013-10-07 11:36:05 · 1361 阅读 · 1 评论 -
Python多线程学习
[url]http://www.cnblogs.com/tqsummer/archive/2011/01/25/1944771.html[/url]一、Python中的线程使用: Python中使用线程有两种方式:函数或者用类来包装线程对象。1、 函数式:调用thread模块中的start_new_thread()函数来产生新线程。如下例:[code="python"]...原创 2013-10-08 09:39:08 · 86 阅读 · 0 评论 -
python: 界面开发Tkinter
python GUI开发 工具选择 [url]http://blog.csdn.net/kiki113/article/details/4066828[/url]python学习笔记——Tkinter GUI编程——简介[url]http://blog.sina.com.cn/s/blog_4b5039210100eoq7.html[/url]Python GUI编程(Tkinter)...原创 2013-10-10 16:38:57 · 279 阅读 · 0 评论 -
Python中执行外部命令并捕获双向输出
原文:[url]http://my.oschina.net/qihh/blog/74266[/url]利用python的subprocess模块执行外部命令,并捕获stdout,stderr的输出:[code="python"]import subprocess#print ’popen3:’def external_cmd(cmd, msg_in=''): try:...原创 2013-10-12 15:08:42 · 187 阅读 · 0 评论 -
python Tkinter的一些记录
[color=red][b]1. Label里面的文本对齐方式[/b][/color]:[url]http://www.hiadmin.org/code/python_tkinter_label[/url]Label(root, text="www.hiadmin.org",bg="red",width=20,height=2, wraplength=80,anchor="w",[color=...原创 2013-10-14 11:06:45 · 175 阅读 · 0 评论 -
Htmlunit使用
[url]http://my.oschina.net/u/852445/blog/398931[/url]原创 2015-04-11 20:12:05 · 148 阅读 · 0 评论 -
Python:数组、列表(list)、字典(dict)、字符串(string)常用基本操作小结
[size=x-large][color=red]连接 list 与分割字符串[/color][/size][url]http://woodpecker.org.cn/diveintopython/native_data_types/joining_lists.html[/url]连接 list 与分割字符串3.7.1. 字符串方法的历史注解您有了一个形如 key=value 的 ke...原创 2013-09-30 13:07:01 · 482 阅读 · 0 评论 -
Python模块学习 ---- datetime
[Python Tip]如何计算时间差 [url]http://blog.donews.com/limodou/archive/2005/02/16/278221.aspx[/url]Q:如何方便的计算两个时间的差,如两个时间相差几天,几小时等 A:使用datetime模块可以很方便的解决这个问题,举例如下: [code="python"]>>> import datetime>>...原创 2013-09-30 09:39:22 · 126 阅读 · 0 评论 -
Java搜索引擎 Nutch 介绍
[url]http://www.open-open.com/lib/view/1325297750139[/url]Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索...原创 2013-09-27 15:43:47 · 96 阅读 · 0 评论 -
开源爬虫Labin,Nutch,Neritrix介绍和对比
[url]http://my.oschina.net/zplswf/blog/95093[/url][color=darkblue][b]Larbin[/b][/color]开发语言:C++http://larbin.sourceforge.net/index-eng.htmllarbin是个基于C++的web爬虫工具,拥有易于操作的界面,不过只能跑在LINUX下,在一台普通PC下...原创 2013-09-27 15:46:05 · 104 阅读 · 0 评论 -
Nutch和CasperJS的区别
[url]http://bingozhao.com/blog/?p=53[/url]研究淘宝产品数据抓取的时候遇到动态内容读取的问题(淘宝上的价格,评论信息是通过JS动态加载的),Nutch在这方面并未考虑。对应的解决方案是基于Webkit/Geko等浏览器核心创建的Headless Browser Agent,比如casperjs(基于pantomjs),可以灵活实现各种模拟用户操作...原创 2013-09-27 21:03:00 · 91 阅读 · 0 评论 -
[Python]网络爬虫
[Python]网络爬虫(一):抓取网页的含义和URL基本构成 [url]http://blog.csdn.net/pleasecallmewhy/article/details/8922826[/url][Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容 [url]http://blog.csdn.net/pleasecallmewhy/article/de...原创 2013-09-28 17:28:01 · 138 阅读 · 0 评论 -
你们都用什么来做爬虫的
看这里的回复 [url]http://www.v2ex.com/t/62657[/url]42 回复 | 直到 2013-03-18 23:08:21 PM 1for4 200 天前 ♥ 3[color=darkblue]Python+requests+lxml+celery[/color] 2xdeng 200 天前...原创 2013-09-28 20:30:35 · 314 阅读 · 0 评论 -
python + request + pyquery[安装失败]
[color=red][size=x-large]比urllib好用的requests[/size][/color] [url]http://www.bsdmap.com/2013/01/13/python-requests/[/url]更多见官方文档:[url]http://docs.python-requests.org/en/latest/user/quickstart/[/url]...原创 2013-09-28 20:51:17 · 248 阅读 · 0 评论 -
Beautiful Soup 中文教程
[url]http://www.pythonclub.org/modules/beautifulsoup/start[/url][color=red]使用yumex安装[/color]官方文档:[url]http://www.crummy.com/software/BeautifulSoup/bs4/doc/[/url],version=4中文文档:[url]http://www....原创 2013-09-29 09:36:29 · 187 阅读 · 0 评论 -
Python中使用中文
[url]http://blog.csdn.net/kernelspirit/article/details/2650696[/url]1.需要在[b][color=red]第一行或第二行指定编码声明[/color][/b]。把ChineseTest.py文件的编码重新改为ANSI,并加上编码声明:# coding=gbk2. 在中文字符串前面[color=red][b]加上u...原创 2013-09-29 10:25:03 · 133 阅读 · 0 评论 -
Python 字符串操作(截取/替换/查找/分割)
[color=red][size=large]python字符串连接[/size][/color]先介绍下效率比较低的,有些新手朋友就会犯这个错误:[code="python"]a = ['a','b','c','d']content = ''for i in a: content = content + i print content[/code]说下为什么效...原创 2013-09-29 13:01:16 · 1532 阅读 · 0 评论 -
用Python操作Mysql和中文问题
[url]http://www.iteye.com/topic/573092[/url]平时的主要编程语言是Java,开发时也主要用Mysql,经常为了测试,调试的目的需要操作数据库,比如备份,插入测试数据,修改测试数据,有些时候不能简单的用SQL就能完成任务,或都很好的完成任务,用Java写又有点太麻烦了,就想到了Python。Python语法简洁,不用编译,可以经较好的完成任务。今天看了下...原创 2013-09-29 13:55:54 · 199 阅读 · 0 评论 -
python html parser库lxml的介绍和使用
使用由 Python 编写的 lxml 实现高性能 XML 解析 [url]http://blog.csdn.net/yatere/article/details/6667043[/url][color=darkblue][size=x-large]用lxml解析HTML[/size][/color][url]http://www.cnblogs.com/descusr/archive/2...原创 2013-09-30 09:39:07 · 630 阅读 · 0 评论 -
垂直爬虫 webmagic
新版文档地址 [url]http://webmagic.io/docs/zh/[/url], [url]http://webmagic.io/docs/zh/posts/ch1-overview/README.html[/url]webmagic的使用文档:[url]https://github.com/code4craft/webmagic/blob/master/user-manual.m...原创 2014-09-05 20:24:57 · 196 阅读 · 0 评论