2015年09月_miangmiang咩

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 Django: 'module' object has no attribute 'index'

凡出言，信为先；诈与妄，奚可焉。最近在学习Django的官方文档，编写自己的web app管理界面，在第三章节时，程序会给提示：'module' object has no attribute 'index'，各种找stackoverflow查阅相似问题帖子，一遍又一遍的看代码，还重写了两次代码，还是报错。首先我想是不是版本的问题，通过在终端下输入以下指令，得到

2015-09-28 17:36:56 5142 3

原创 selenium抓取动态网页

这世上如果有天堂，天堂应该是图书馆的模样。 ---[阿根廷]豪尔赫·路易斯·博尔赫斯好开心呀，终于可以把茜茜公主图片批量下载下来了，真是美丽的女子!因为此网页刘亦菲的星图粉刷墙为动态网页，直接读取网页内容是得到不图片信息的，所以我们需要另辟蹊径。在解决动态网页中，我们通常可以采取以下两种途径： 1.通过抓包工具分析js,ajax的请求，模拟该请求获取js加载后

2015-09-16 18:01:10 1298 3

原创 scrapy爬取博客文章

使用编译器：ipython+vim 使用模块：scrapy+sqlalchemy 在我的上一篇博文使用Scrapy建立一个网站抓取器简单的总结了scrapy框架和数据库sqlalchemy的使用，接下来，通过爬取自己的博客文章来实践一下：

2015-09-12 22:12:13 1854 1

原创 python的简易调试

学习一门新的语言，无论他是复杂还是简单，如果不会调试，好比一个瞎子，无法知道自己的一个实验哪里出了问题。你肯定想说，print也是一个不确的调试的方法，但是有时候就算你有满屏的print语句，还是比不过跟踪程序运行找错误来得快。下面是一些简易的高度python程序的方法，能够满足一般要求。 python自带调试器，如果你想调试的程序叫做lucky.py, run -d lucky.p

2015-09-10 10:16:57 676

原创使用Scrapy建立一个网站抓取器

最近在学习爬虫，遇到了一个烦人的问题-----博客上的代码，十个有六个编译通过不了，特别忧愁。只能把程序模块化，分步调试，明白了这其中的原委：第一：网页的排版有了更新，以前能够使用正则表达式或者beautiful soup等提取相关内容，由于现在网页版本格式变了，以至于提取不出来相关的信息（主要原因）；二：如果你使用的是scrapy框架，这是一个开源程序，版本一直在更新，有些函数已经别弃用了。

2015-09-02 19:26:05 925 2