karis_ankedy-CSDN博客

原创抓取问题

1：按照正则抓取的话，对于大多数同网站的网页能都抓取，但是对于某一个或某几个页面正则匹配失败，但是正则表达式本身正确，因为它对其他相同页面可匹配；等过段时间再次抓取匹配，又匹配成功。问题：如果在抓取了大量的数据后，突然遇到这种情况，程序崩掉，那么重新抓取，浪费时间，并且重新可能遇到该种情况；如果用beautifulsoup第三方包会不会好点

2014-07-03 11:11:29 430

转载 urllib2的使用细节与抓站技巧——part

http://blog.csdn.net/pleasecallmewhy/article/details/8925978登录 | 注册汪海的实验室但行好事，莫问前程。http://callmewhy.com目录视图摘要视图订阅有奖征资源

2014-07-02 14:01:40 394

原创 python 类的数据属性

有时在父类的__init__(self)中声明一个数据属性，在子类中

2014-07-01 16:45:17 355

原创 Python下的正则表达式原理和优化笔记

Python下的正则表达式原理和优化笔记摘要本文旨在总结一些编写表达式的技巧和原理。鉴于介绍python中re模块的使用方法的文章太多。所以本文在基础方面都是略过，而在回溯原理和一些技巧方面记录一点点学习总结。正则表达式 RE Python 正则表达式优化目录[-]基础规则的介绍python中的转义符号干扰基本字符量词限定符锚点符

2014-07-01 13:54:00 1288

转载 Python正则表达式指南

Python正则表达式指南本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。注意：本文基于Python2.4完成；如果看到不明白的词汇请记得百度谷歌或维基，whatever。尊重作者的劳动，转载请注明作者及原文地址 >.ht

2014-07-01 13:46:34 252

转载 Python在Web Page抓取、JS解析方面的介绍

由于目前的Web开发中AJAX、Javascript、CSS的大量使用，一些网站上的重要数据是由Ajax或Javascript动态生成的，并不能直接通过解析html页面内容就能获得（例如采用mechanize、lxml、Beautiful Soup ）。要实现对这些页面数据的爬取，爬虫必须支持Javacript、DOM、HTML解析等一些浏览器html、javascript引擎的基本功能。

2014-06-30 16:33:10 2793