python
shuangshui
这个作者很懒,什么都没留下…
展开
-
用python爬虫抓站的一些技巧总结 zz
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。 这些脚本有一个共性,都是和web相关的,总要用到获取链接的一些方法,再加上simplecd这个半爬虫半网站的项目,累积不少转载 2014-11-08 21:14:48 · 479 阅读 · 0 评论 -
python中的正则表达式
当处理较为复杂的字符串问题时,与其他语言类似,Python提供了非常强大的re模块(regular expression)。re模块主要的作用就是 根据pattern(也就是你给的那个规则),在一个字符串string中 寻找满足这个pattern的子字符串,然后返回的过程。当然re模块 这里首先compile了 pattern,在给定的模式中(比如 dotall )中,提交给计算中心(match原创 2014-10-27 16:21:52 · 603 阅读 · 0 评论