python
iteye_9789
这个作者很懒,什么都没留下…
展开
-
使用Python的urllib2库抓取网页
1、GET方式直接抓取,需要参数拼在参数中[code="java"]import urllib2content = urllib2.urlopen(url).read()[/code]这里的url可以是很多中协议,具体参考官方文档2、POST方式抓取数据,参数可以在url中,也可以封装中请求中[code="java"]import urllib2, urllib...原创 2013-11-01 17:49:37 · 112 阅读 · 0 评论 -
Python的urllib2的代理设置
程序中使用代理的应用场景主要是:爬去有访问频率限制的网站的数据或者用于刷票等代理的代码很简单,可以和上一篇的cookie、header等一起设置,具体可参考官方api[code="java"] proxy_info = "219.232.47.153:80" proxy_handler = urllib2.ProxyHandler({"http" : "http://%s/" % ...原创 2013-11-01 17:58:51 · 143 阅读 · 0 评论 -
使用BeautifulSoup解析html页面
1、有很多开源库以及python自动的htmlparser库都可以解析html,简单的功能,用哪个都一样,看个人习惯,此处简单介绍一下BeautifulSoup的用法,详细的用法可以参考官方文档[url]http://www.crummy.com/software/BeautifulSoup/[/url]2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4...原创 2013-11-01 19:36:48 · 369 阅读 · 0 评论 -
Python的日期处理
1、python的标准库中关于时间主要用到的是datetime[code="java"]import datetime[/code]2、datetime下面有四个类:datetime date time timedelta,简单的区别就是故名思议:日期+时间 日期 时间,详细区别可以在网上查询3、日期处理主要包括下面几类 [*]获取当前时间[code="java"...原创 2013-03-05 20:12:55 · 112 阅读 · 0 评论