python&爬虫
橘猫且engi
这个作者很懒,什么都没留下…
展开
-
(原创)python zipfile实现压缩整个目录和子目录
python zipfile实现压缩整个目录和子目录zipfile背景简介核心原理DFS代码实现python zipfile实现压缩整个目录和子目录zipfile背景简介zipfile是python提供的一个简单高效的模块。可以用很迅速的方法来进行文件压缩和解压的过程。 细节性的内容可以查看zipfile的文档 zipfile文档 这里先介绍几个简单的方法 f = zipfile.Zip原创 2017-04-01 12:53:39 · 20521 阅读 · 1 评论 -
(原创)scrapy的MemoryError
(原创)scrapy的MemoryError原创scrapy的MemoryError背景知识MemoryErrorscrapy爬虫的内存检查问题代码使用telnet进行检查代码修改背景知识MemoryErrorMemoryError是python的常见异常之一,可以通过查看python的在线文档来进行了解:exception MemoryErrorRaised when an oper原创 2017-07-17 14:50:31 · 1621 阅读 · 0 评论 -
(原创)python函数内部函数
python函数内部函数根据研究组的项目需求,需要用爬虫爬取一些gitlab上的项目信息,这里遇到了一个奇怪的错误。python函数内部函数项目背景原因分析分析和总结其他收获项目背景问题出现在scrapy的pipelines这个模块里面,当时的代码是如下的模式: class FilesPipeline(FilesPipeline): def get_me原创 2017-07-10 09:43:25 · 2375 阅读 · 0 评论 -
(原创)scrapy的MemoryError(后续)
scrapy的MemoryError后续问题分析scrapy的MemoryError(后续)问题之前写过一篇关于scrapy的MemoryError的博客,主要是介绍了MemoryError这个异常出现的原因和解决方案,但是对于其原因的探讨似乎还是不太明了,这次我们来深入探讨一下这个问题。 “`分析这个问题真正的原因是因为scrapy在大文件下载时出现的一个bug所致,深入分析其源代码可以发现原创 2017-07-26 11:34:28 · 7411 阅读 · 0 评论 -
(原创)利用页面交叉引用反馈爬取vulners.com的数据
因为实验室的工作需要,需要对vulners.com网站上的漏洞信息和相关链接进行数据爬取,但是vulners本身对爬虫的限制非常严格,前端页面都是由react.js生成的,很难单纯靠爬虫获取html数据。原创 2017-07-27 12:37:49 · 1096 阅读 · 0 评论 -
(原创)python的字符串读写和二进制读写
python的文本读写和二进制读写python的文本读写和二进制读写字符串读写和二进制读写 问题代码复现笔者在之前的文档里面提出过,scrapy框架本身存在大文件下载的问题,因此产生了改造scrapy的想法,这里在修改下载模块(FilesPipeline)的时候遇到了文本读写和二进制读写的问题。(scrapy具体bug见笔者的另外一两博客:scrapy的MemoryError(续),scra原创 2017-10-18 10:36:17 · 4671 阅读 · 0 评论 -
(原创)clang的python接口教程(二)
clang的python接口(二)N久之前的一个坑了,今天来为大家填上。(果然需求是第一生产力)常用类AST的构建遍历AST语法单元提取分词提取Democlang的python接口二常用类AST的构建前序遍历AST语法单元提取分词的提取参考资料常用类Index: 这个类是clang的核心类。具有构建语法树的主类。 常用方法: create() '''原创 2017-11-23 15:44:55 · 7948 阅读 · 3 评论