- 博客(3)
- 资源 (9)
- 收藏
- 关注
原创 IP代理池的Python实现
爬虫采集数据时,如果频繁的访问某个网站,会被封IP,有些是禁止访问3小时,有些是直接拉黑名单。为了避免被禁,一般采取的措施有三种: 放慢抓取的速度,设置一个时间间隔; 模拟浏览器行为,如采用Selenium + PhantomJS; 设置IP代理,定期更换代理IP,让网站不认为来自一个IP。 本文实现其中的第三种方法。 国内提供IP代理的网站有很多,我们以其中的一个为例:h
2015-11-19 09:19:51 8181
原创 Python 获取最长单词的两种方法
方法1:一般方法In[7]: text=[u'[', u'Paradise', u'Lost', u'by', u'John', u'Milton', u'1667', u']', u'Book', u'I', u'Of', u'Man', u"'", u's', u'first', u'disobedience', u',', u'and', u'the', u'fruit']In[8]: lo
2015-11-13 10:48:20 23456
原创 Python正则表达式
许多语言处理任务都涉及模式匹配。例如,可以使用endswith(‘ed’)找出以“ed”结尾的词。正则表达式提出了一个更加强大和灵活的方法描述感兴趣的字符模式。在Python中使用正则表达式,需要使用import re导入re函数库。下表为正则表达式基本元字符,其中包括通配符、范围和闭包 贪婪模式与非贪婪模式Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的
2015-11-11 17:23:17 733
读取xml转存sqlite(VS2010 ,VS2005)
2013-06-08
读取xml转存sqlite
2013-06-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人