- 博客(6)
- 资源 (5)
- 收藏
- 关注
原创 抓取问题
1:按照正则抓取的话,对于大多数同网站的网页能都抓取,但是对于某一个或某几个页面正则匹配失败,但是正则表达式本身正确,因为它对其他相同页面可匹配;等过段时间再次抓取匹配,又匹配成功。问题:如果在抓取了大量的数据后,突然遇到这种情况,程序崩掉,那么重新抓取,浪费时间,并且重新可能遇到该种情况;如果用beautifulsoup第三方包会不会好点
2014-07-03 11:11:29 430
转载 urllib2的使用细节与抓站技巧——part
http://blog.csdn.net/pleasecallmewhy/article/details/8925978登录 | 注册汪海的实验室但行好事,莫问前程。http://callmewhy.com目录视图摘要视图订阅有奖征资源
2014-07-02 14:01:40 394
原创 Python下的正则表达式原理和优化笔记
Python下的正则表达式原理和优化笔记摘要 本文旨在总结一些编写表达式的技巧和原理。鉴于介绍python中re模块的使用方法的文章太多。所以本文在基础方面都是略过,而在回溯原理和一些技巧方面记录一点点学习总结。正则表达式 RE Python 正则表达式优化目录[-]基础规则的介绍python中的转义符号干扰基本字符量词限定符锚点符
2014-07-01 13:54:00 1288
转载 Python正则表达式指南
Python正则表达式指南本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,whatever。尊重作者的劳动,转载请注明作者及原文地址 >.ht
2014-07-01 13:46:34 252
转载 Python在Web Page抓取、JS解析方面的介绍
由于目前的Web开发中AJAX、Javascript、CSS的大量使用,一些网站上的重要数据是由Ajax或Javascript动态生成的,并不能直接通过解析html页面内容就能获得(例如采用mechanize、lxml、Beautiful Soup )。要实现对这些页面数据的爬取,爬虫必须支持Javacript、DOM、HTML解析等一些浏览器html、javascript引擎的基本功能。
2014-06-30 16:33:10 2793
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人