自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (5)
  • 收藏
  • 关注

原创 抓取问题

1:按照正则抓取的话,对于大多数同网站的网页能都抓取,但是对于某一个或某几个页面正则匹配失败,但是正则表达式本身正确,因为它对其他相同页面可匹配;等过段时间再次抓取匹配,又匹配成功。问题:如果在抓取了大量的数据后,突然遇到这种情况,程序崩掉,那么重新抓取,浪费时间,并且重新可能遇到该种情况;如果用beautifulsoup第三方包会不会好点

2014-07-03 11:11:29 430

转载 urllib2的使用细节与抓站技巧——part

http://blog.csdn.net/pleasecallmewhy/article/details/8925978登录 | 注册汪海的实验室但行好事,莫问前程。http://callmewhy.com目录视图摘要视图订阅有奖征资源

2014-07-02 14:01:40 394

原创 python 类的数据属性

有时在父类的__init__(self)中声明一个数据属性,在子类中

2014-07-01 16:45:17 355

原创 Python下的正则表达式原理和优化笔记

Python下的正则表达式原理和优化笔记摘要 本文旨在总结一些编写表达式的技巧和原理。鉴于介绍python中re模块的使用方法的文章太多。所以本文在基础方面都是略过,而在回溯原理和一些技巧方面记录一点点学习总结。正则表达式 RE Python 正则表达式优化目录[-]基础规则的介绍python中的转义符号干扰基本字符量词限定符锚点符

2014-07-01 13:54:00 1288

转载 Python正则表达式指南

Python正则表达式指南本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.4完成;如果看到不明白的词汇请记得百度谷歌或维基,whatever。尊重作者的劳动,转载请注明作者及原文地址 >.ht

2014-07-01 13:46:34 252

转载 Python在Web Page抓取、JS解析方面的介绍

由于目前的Web开发中AJAX、Javascript、CSS的大量使用,一些网站上的重要数据是由Ajax或Javascript动态生成的,并不能直接通过解析html页面内容就能获得(例如采用mechanize、lxml、Beautiful Soup )。要实现对这些页面数据的爬取,爬虫必须支持Javacript、DOM、HTML解析等一些浏览器html、javascript引擎的基本功能。

2014-06-30 16:33:10 2793

cs_project_2014.07.10

这是最新的抓取项目,里面设计了很多模块,目前还未实现多线程抓取,但是抓取的大部分功能均能以实现

2014-07-10

cs_autumn_2014.07.07

数库公司的抓取项目,难度轻重不一,如果是学习抓取的话,还是比较适合的

2014-07-08

python模块

对python模块使用的解释,可以更方便的对python技术的提高

2014-07-04

python lib

python lib帮助Python使用

2014-07-02

work_crawl

python crawl at chinascopefinacial

2014-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除