![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
iteye_9789
这个作者很懒,什么都没留下…
展开
-
使用Python的urllib2库抓取网页
1、GET方式直接抓取,需要参数拼在参数中 [code="java"] import urllib2 content = urllib2.urlopen(url).read() [/code] 这里的url可以是很多中协议,具体参考官方文档 2、POST方式抓取数据,参数可以在url中,也可以封装中请求中 [code="java"] import urllib2, urllib...原创 2013-11-01 17:49:37 · 111 阅读 · 0 评论 -
Python的urllib2的代理设置
程序中使用代理的应用场景主要是:爬去有访问频率限制的网站的数据或者用于刷票等 代理的代码很简单,可以和上一篇的cookie、header等一起设置,具体可参考官方api [code="java"] proxy_info = "219.232.47.153:80" proxy_handler = urllib2.ProxyHandler({"http" : "http://%s/" % ...原创 2013-11-01 17:58:51 · 142 阅读 · 0 评论 -
使用BeautifulSoup解析html页面
1、有很多开源库以及python自动的htmlparser库都可以解析html,简单的功能,用哪个都一样,看个人习惯,此处简单介绍一下BeautifulSoup的用法,详细的用法可以参考官方文档[url]http://www.crummy.com/software/BeautifulSoup/[/url] 2、去上面的网址下载、解压安装,都有说明, 我在python2.7的环境下面安装soup4...原创 2013-11-01 19:36:48 · 367 阅读 · 0 评论 -
Python的日期处理
1、python的标准库中关于时间主要用到的是datetime [code="java"]import datetime[/code] 2、datetime下面有四个类:datetime date time timedelta,简单的区别就是故名思议:日期+时间 日期 时间,详细区别可以在网上查询 3、日期处理主要包括下面几类 [*]获取当前时间 [code="java"...原创 2013-03-05 20:12:55 · 111 阅读 · 0 评论