silence-cc的博客

脚踏实地,才可以走的远。

tornado的静态文件static命名问题

转载自 https://blog.csdn.net/AbeBetter/article/details/77073359 在tornado中配置静态文件,命名一个目录为statics,尽管配置了 ‘static_path’ : os.path.join(os.path.dirname(file),...

2018-11-20 13:02:04

阅读数 108

评论数 0

postman使用详解

转载自小喜的博客,https://www.cnblogs.com/xiaoxi-3-/p/7839278.html Postman使用详解 前言: Postman是一款功能强大的网页调试与发送网页HTTP请求的Chrome插件。 接口请求流程 一、g...

2018-10-26 17:54:32

阅读数 53

评论数 0

ubuntu chrome 设置 no proxy

ubuntu chrome设置noproxy 原博客地址https://blog.csdn.net/cicome/article/details/79374082 当你的Goog...

2018-10-01 21:01:36

阅读数 259

评论数 0

scrapy_redis 解决空跑问题,自动关闭爬虫

使用过scrapy_redis框架...

2018-09-13 17:26:34

阅读数 330

评论数 1

scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?

scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题? 1. 背景 根据scrapy-redis分...

2018-09-12 18:53:13

阅读数 105

评论数 0

使用scrapy及组件scrapy-redis进行分布式爬取腾讯社招

scrapy本身是不支持分布式爬取的,但和组件scrapy-redis一起使用,则支持分布式爬取。 分布式爬取原理:所有爬虫端共享redis里面的request请求,然后从这里面获取请求,再去爬取,直至队列为空。 共使用了3个系统,win10和ubuntu作为爬虫客户端,另外一个ubuntu存...

2018-09-10 18:48:53

阅读数 274

评论数 0

关于使用scrapy_redis组件没有存取scrapy的请求到redis数据库的问题的解决

发现在使用scrapy_redis组件时,运行爬虫时,在redis数据库里面只有items数据列表和去重指纹集合,但没有scrapy的请求request数据列表,经过不断测试,发现只有在停止爬虫爬取时,才可以在redis数据库里面看到scrapy的request数据列表。 爬取前的redis数据...

2018-08-17 06:53:20

阅读数 888

评论数 9

scrapy-redis使用以及剖析

这是转载博客园上的一篇文章,通过下面的这行代码解决了把scrapy的request 存入到redis数据库里面,没开启前只有item列表和去重集合存储到redis数据库。 # Enables scheduling storing requests queue in redis SCHEDULER...

2018-08-16 22:49:53

阅读数 116

评论数 0

python关于windows创建含有中文字符串的文件夹及文件时乱码的问题处理

文件夹和文件的名字里面含有中文字符串时出现乱码的处理: 把该字符串编码转换为unicode或gbk编码的字符串来解决。代码第二行如有声明编码格式如utf-8,则代码里面出现中文字符串的地方就按照utf-8格式的字符串去处理;如没有编码声明,则windows系统默认为gbk编码,而linux默认为...

2018-08-12 21:52:29

阅读数 784

评论数 0

使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件

目的:使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则爬取所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章。 总结:本例只是能简单的爬取某一类型漏洞的所有文章,但不能爬取多个类型漏洞的...

2018-08-12 15:44:24

阅读数 171

评论数 0

CSDN怎么转载别人的博客

在参考“如何快速转载CSDN中的博客”后,由于自己不懂html以及markdown相关知识,所以花了一些时间来弄明...

2018-08-10 00:05:04

阅读数 23

评论数 0

Python必会的单元测试框架 —— unittest

这是huilan_same博客写的关于python的单元测试框架unittest,写的真心不错,转载过来以备学习使用。 关于如何快速转载别人博客,参考CSDN怎么转载别人的博客 对于转载过程中出现有些内容不在代码块范围内,可在使用markdown编辑时,选中不在代码块的内容,按一次tab键解决...

2018-08-09 23:59:33

阅读数 34

评论数 0

解决windows 10环境使用redis-cli.exe不能连接到ubuntu 16.4环境redis-server.exe的问题

本次出现连接不上的原因为ubuntu防火墙开启导致的,关闭防火墙解决 搭建scrapy-redis环境时,发现在windows 10里面使用redis-cli.exe -h ip -p 6379去连接ubuntu 16.04系统里面的 redis-server时,出现连接不上情况,如果使用wi...

2018-08-06 22:29:43

阅读数 544

评论数 0

解决windows和ubuntu之间的文件拖放问题

在ubuntu 16.04 终端里面,执行命令如下 # 首先移除系统原来的虚拟工具条open-vm-tools sudo apt-get autoremove open-vm-tools # 安装桌面版的虚拟工具条,以支持windows和ubuntu之间的拖放 sudo apt-get i...

2018-08-06 21:44:56

阅读数 1292

评论数 0

爬取某网站的所有乌云漏洞文章,保存为pdf文件

鼎鼎大名的乌云,存在了6年左右,就停摆了,真是可惜。。。 这是从某个网站看到的乌云文章,爬取保存下来以作学习使用 创建一个文件夹wooyun,把下面的代码保存到一个文件如test.py,放在该文件里面 # -*- coding: utf-8 -*- import urllib2 import...

2018-07-31 23:25:24

阅读数 288

评论数 0

使用mongodb保存爬取豆瓣电影的数据

创建爬虫项目douban scrapy startproject douban 设置items.py文件,存储要保存的数据类型和字段名称 # -*- coding: utf-8 -*- import scrapy class DoubanItem(scrapy.Item): ...

2018-07-27 12:15:19

阅读数 85

评论数 0

使用scrapy爬取新浪新闻

使用scrapy爬取新浪新闻 思路:通过观察,获取某节点作为当前节点,然后依次遍历大类链接 小类链接 子链接 要点:注意item和meta参数的使用。详情见代码newsina.py里面相关的注释 总结:个人因为item的位置,导致浪费了好多时间。 流程如下: 创建爬虫项目sina2 ...

2018-07-27 00:22:04

阅读数 1256

评论数 1

使用scrapy爬取阳光热线问政平台

目的:爬取问题反映每个帖子里面的标题、内容、编号和帖子url CrawlSpider版流程如下: 创建爬虫项目dongguang scrapy startproject dongguang 设置items.py文件 # -*- coding: utf-8 -*- import sc...

2018-07-20 14:26:43

阅读数 208

评论数 0

使用scrapy爬取手机版斗鱼主播的房间图片及昵称

目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机连接好wifi后,点击手机wifi的连接,把代理改为手动,主机地址设置为fiddler所在的...

2018-07-16 18:11:21

阅读数 227

评论数 0

使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接

目的:使用selenium + chrome爬取计算机学科的所有的课程链接列表 思路:找到每个分页的节点属性为class=”m-course-list” 的div元素,再找到该元素下面的类属性为class = “u-clist f-bg f-cb f-pr j-href ga-click”的di...

2018-07-12 18:07:42

阅读数 1389

评论数 3

提示
确定要删除当前文章?
取消 删除
关闭
关闭