2015年07月_kk123a

12月 11月 10月 09月 08月 07月 05月

转载 scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据

在安装完scrapy以后，相信大家都会跃跃欲试想定制一个自己的爬虫吧？我也不例外，下面详细记录一下定制一个scrapy工程都需要哪些步骤。如果你还没有安装好scrapy，又或者为scrapy的安装感到头疼和不知所措，可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考。这里就拿博客园来做例子吧，抓取博客园的博客列表并保存到json文件。环境：CentOS 6.0 虚拟

2015-07-27 21:07:09 637

转载如何让你的scrapy爬虫不再被ban

如何　　前面用scrapy编写爬虫抓取了自己博客的内容并保存成json格式的数据（scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据）和写入数据库（scrapy爬虫成长日记之将抓取内容写入mysql数据库）。然而，这个爬虫的功能还是过于弱小，一旦目标网站设置了爬虫的限制，我们的爬虫也就失效了。因此这里重点讲述一下如何避免scrapy爬虫被ban。本门的所有内

2015-07-27 21:02:27 1111

转载 scrapy爬虫成长日记之将抓取内容写入mysql数据库

前面小试了一下scrapy抓取博客园的博客（您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据），但是前面抓取的数据时保存为json格式的文本文件中的。这很显然不满足我们日常的实际应用，接下来看下如何将抓取的内容保存在常见的mysql数据库中吧。　　说明：所有的操作都是在“scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据”的基础上完成，如果

2015-07-27 20:34:01 683

转载手把手教你如何加入到github的开源世界！

以提交的一次开源代码为例，教会你步入开源的世界。1,首先登陆到https://github.com平台上注册一个自己的账号，这个过程就不演示了2，然后在左上部分输入一个开源项目的名字,选择的是jvalidator,回车搜索。3,在搜索结果页面找到如下如图所示的项目，单击项目名称。4,此时，你已经进入到了rinh/jvalidator的项目主页了，单击

2015-07-24 10:56:40 514

转载 python cookielib 登录人人网

python cookielib 登录人人网今天晚上不是很忙，所以早早的就在电脑的旁边开始写东西了。我今天给大家分享一个我自己用python写的自动登录人人网的脚本，没办法就是懒！懒的输入帐号和密码,让python给我们减少工作量! 先上脚本吧，等下来讲下知识点:#!/usr/bin/env python#encoding=utf-8import sysi

2015-07-23 19:35:15 903

转载 python pdb调试

这篇文章主要介绍了使用Python中PDB模块中的命令来调试Python代码的教程,包括设置断点来修改代码等、对于Python团队项目工作有一定帮助，需要的朋友可以参考下你有多少次陷入不得不更改别人代码的境地？如果你是一个开发团队的一员，那么你遇到上述境地的次数比你想要的还要多。然而，Python中有一个整洁的调试特性（像其他大多数语言一样），在这种情况下使用非常方便。本文是一篇快速教

2015-07-21 21:51:07 779

转载浅析Python虚拟机执行框架

浅析Python虚拟机执行框架2010-02-24 10:39 佚名 CSDN 字号：T | T下面的文章大家即将看到Python虚拟机的整体执行框架，大家还可以看到Python虚拟机在执行过程中不断使用的执行环境。AD：在Python虚拟机中一个最核心的概念，在Python语言中，一切都是对象，也就是说一个整数就是一个对象，

2015-07-07 20:55:54 572

转载 Django运行方式及处理流程总结

Django运行方式及处理流程总结2014-10-30Django Django / Python 已有4075人围观 17条读后感之前在网上看过一些介绍Django处理请求的流程和Django源码结构的文章，觉得了解一下这些内容对开发Django项目还是很有帮助的。所以，我按照自己的逻辑总结了一下Django项目的运行方式和对Request的基本处理流

2015-07-07 13:41:22 667