- 博客(5)
- 资源 (6)
- 收藏
- 关注
原创 Django: 'module' object has no attribute 'index'
凡出言,信为先;诈与妄,奚可焉。 最近在学习Django的官方文档,编写自己的web app管理界面,在第三章节时,程序会给提示:'module' object has no attribute 'index',各种找stackoverflow查阅相似问题帖子,一遍又一遍的看代码,还重写了两次代码,还是报错。 首先我想是不是版本的问题,通过在终端下输入以下指令,得到
2015-09-28 17:36:56 5142 3
原创 selenium抓取动态网页
这世上如果有天堂,天堂应该是图书馆的模样。 ---[阿根廷]豪尔赫·路易斯·博尔赫斯 好开心呀,终于可以把茜茜公主图片批量下载下来了,真是美丽的女子!因为此网页刘亦菲的星图粉刷墙为动态网页,直接读取网页内容是得到不图片信息的,所以我们需要另辟蹊径。 在解决动态网页中,我们通常可以采取以下两种途径: 1.通过抓包工具分析js,ajax的请求,模拟该请求获取js加载后
2015-09-16 18:01:10 1298 3
原创 scrapy爬取博客文章
使用编译器:ipython+vim 使用模块:scrapy+sqlalchemy 在我的上一篇博文使用Scrapy建立一个网站抓取器简单的总结了scrapy框架和数据库sqlalchemy的使用,接下来,通过爬取自己的博客文章来实践一下:
2015-09-12 22:12:13 1854 1
原创 python的简易调试
学习一门新的语言,无论他是复杂还是简单,如果不会调试,好比一个瞎子,无法知道自己的一个实验哪里出了问题。你肯定想说,print也是一个不确的调试的方法,但是有时候就算你有满屏的print语句,还是比不过跟踪程序运行找错误来得快。下面是一些简易的高度python程序的方法,能够满足一般要求。 python自带调试器,如果你想调试的程序叫做lucky.py, run -d lucky.p
2015-09-10 10:16:57 676
原创 使用Scrapy建立一个网站抓取器
最近在学习爬虫,遇到了一个烦人的问题-----博客上的代码,十个有六个编译通过不了,特别忧愁。只能把程序模块化,分步调试,明白了这其中的原委:第一:网页的排版有了更新,以前能够使用正则表达式或者beautiful soup等提取相关内容,由于现在网页版本格式变了,以至于提取不出来相关的信息(主要原因);二:如果你使用的是scrapy框架,这是一个开源程序,版本一直在更新,有些函数已经别弃用了。
2015-09-02 19:26:05 925 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人