2014年11月_僷枫_华

原创正则表达式学习（一）

正则表达式是一门很有用的工具，用好它，在写代码时能节省很多工作和重复劳动力。尤其在做字符串处理时尤为有用。

2014-11-29 12:50:15 524

转载如何用Python去实现抓取静态网页+抓取动态网页+模拟登陆网站

http://www.crifan.com/how_to_use_some_language_python_csharp_to_implement_crawl_website_extract_dynamic_webpage_content_emulate_login_website/背景在网络，网页，网站处理方面，很多人都遇到过，想要用某种语言（Pyth

2014-11-23 16:16:58 1113

转载 15个最受欢迎的Python开源框架

摘要：我们从GitHub中整理出了15个最受欢迎的Python开源框架，这些框架包括事件I/O、OLAP、Web开发、高性能网络通信、测试、爬虫等。我们从GitHub中整理出了15个最受欢迎的Python开源框架，这些框架包括事件I/O、OLAP、Web开发、高性能网络通信、测试、爬虫等。 1. Django: Python Web应用开发框架Djang

2014-11-23 12:06:57 463

转载 python模拟登录及表单提交

# -*- coding: utf-8 -*- import re import urllib import urllib2 import cookielib #获取CSDN博客标题和正文 url = "http://blog.csdn.net/[username]/archive/2010/07/05/5712850.aspx" sock = urlli

2014-11-22 17:39:55 1762

转载 Python 实现网络爬虫

一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如

2014-11-22 16:38:06 1357

转载网页爬虫汇总

转自网页爬虫汇总Heritrix Heritrix是一个开源，可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。http://crawler.archive.org/WebSPHINX WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏

2014-11-22 16:33:01 888

转载 'strcpy': This function or variable may be unsafe. Consider using strcpy_s instead. To disable depr

使用VS2005以上版本（VS2005、VS2008、VS2010）编译在其他编译器下正常通过的C语言程序，你可能会遇到类似如下的警告提示：引用内容warning C4996: 'strcpy': This function or variable may be unsafe. Consider using strcpy_s instead. To disable deprecation

2014-11-08 10:16:50 970

叶落无痕，枫过有情……