python
文章平均质量分 60
silence cc
这个作者很懒,什么都没留下…
展开
-
python打包若干个文件成so文件
目的:使用python把单个py文件或指定目录里面所有的py文件打包成so文件,以起到加密作用。环境:ubuntu 16.04 64位系统,python2,安装cython,gcc安装:安装cython :sudo pip install cython安装gcc: sudo apt-get install gcc一、把单个py文件test.py打包成so文件。test.py代码...原创 2020-02-07 23:53:51 · 5577 阅读 · 0 评论 -
postman使用详解
转载自小喜的博客,https://www.cnblogs.com/xiaoxi-3-/p/7839278.html Postman使用详解 前言:Postman是一款功能强大的网页调试与发送网页HTTP请求的Chrome插件。接口请求流程一、get请求GET请求:点击Params,输入参数及value,可输入多个,即时显示在URL链接上,所以...转载 2018-10-26 17:54:32 · 650 阅读 · 1 评论 -
scrapy_redis 解决空跑问题,自动关闭爬虫
使用过scrapy_redis框架的人一定知道,scrapy redis 在没有requests的时候,会阻塞等待接收start_url...转载 2018-09-13 17:26:34 · 1350 阅读 · 1 评论 -
使用scrapy及组件scrapy-redis进行分布式爬取腾讯社招
scrapy本身是不支持分布式爬取的,但和组件scrapy-redis一起使用,则支持分布式爬取。分布式爬取原理:所有爬虫端共享redis里面的request请求,然后从这里面获取请求,再去爬取,直至队列为空。共使用了3个系统,win10和ubuntu作为爬虫客户端,另外一个ubuntu存放redis数据库用来保存爬取的数据 请求及去重指纹。遇到的问题:爬取时有一个爬虫端不能爬取数据,...原创 2018-09-10 18:48:53 · 709 阅读 · 0 评论 -
scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?
scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?1. 背景根据scrapy-redis分布式爬虫的原理,多台爬虫主机共享一个爬取队列。当爬取队列中存在request时,爬虫就会取出reque...转载 2018-09-12 18:53:13 · 670 阅读 · 0 评论 -
关于使用scrapy_redis组件没有存取scrapy的请求到redis数据库的问题的解决
发现在使用scrapy_redis组件时,运行爬虫时,在redis数据库里面只有items数据列表和去重指纹集合,但没有scrapy的请求request数据列表,经过不断测试,发现只有在停止爬虫爬取时,才可以在redis数据库里面看到scrapy的request数据列表。爬取前的redis数据库,里面内容为空。 数据爬取中时,观察发现只有Items和dupefilter数据,但没有s...原创 2018-08-17 06:53:20 · 3213 阅读 · 10 评论 -
scrapy-redis使用以及剖析
这是转载博客园上的一篇文章,通过下面的这行代码解决了把scrapy的request 存入到redis数据库里面,没开启前只有item列表和去重集合存储到redis数据库。# Enables scheduling storing requests queue in redisSCHEDULER = "scrapy_redis.scheduler.Scheduler"scrapy-redis...转载 2018-08-16 22:49:53 · 514 阅读 · 0 评论 -
python关于windows创建含有中文字符串的文件夹及文件时乱码的问题处理
文件夹和文件的名字里面含有中文字符串时出现乱码的处理:把该字符串编码转换为unicode或gbk编码的字符串来解决。代码第二行如有声明编码格式如utf-8,则代码里面出现中文字符串的地方就按照utf-8格式的字符串去处理;如没有编码声明,则windows系统默认为gbk编码,而linux默认为utf-8编码。#!/usr/bin/env python# coding:utf-8impo...原创 2018-08-12 21:52:29 · 3590 阅读 · 0 评论 -
使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件
目的:使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则爬取所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章。总结:本例只是能简单的爬取某一类型漏洞的所有文章,但不能爬取多个类型漏洞的所有文章,有时可能会有一些小bug导致没爬取完就崩溃,需要手工修改进而重新爬。其它问题解决看注释。...原创 2018-08-12 15:44:24 · 719 阅读 · 0 评论 -
CSDN怎么转载别人的博客
在参考“如何快速转载CSDN中的博客”后,由于自己不懂html以及markdown相关知识,所以花了一些时间来弄明白怎么转载博客,以下为转载CSDN博客步骤和一些知识小笔记。 参考博客原址:http://blog....转载 2018-08-10 00:05:04 · 171 阅读 · 0 评论 -
Python必会的单元测试框架 —— unittest
这是huilan_same博客写的关于python的单元测试框架unittest,写的真心不错,转载过来以备学习使用。关于如何快速转载别人博客,参考CSDN怎么转载别人的博客 对于转载过程中出现有些内容不在代码块范围内,可在使用markdown编辑时,选中不在代码块的内容,按一次tab键解决 用Pyth...转载 2018-08-09 23:59:33 · 196 阅读 · 0 评论 -
python2使用bs4爬取腾讯社招
目的:获取腾讯社招这个页面的职位名称及超链接 职位类别 人数 地点和发布时间要求:使用bs4进行解析,并把结果以json文件形式存储注意:如果直接把python列表没有序列化为json数组,写入到json文件,会产生中文写不进去到文件,所以要序列化并进行utf-8编码后写入文件。# -*- coding:utf-8 -*-import requestsfrom bs4 import...原创 2018-07-07 00:00:12 · 2821 阅读 · 0 评论 -
使用scrapy爬取腾讯社招,获取所有分页的职位名称及chaolia、类型、人数、工作地点、发布日期超链接
目的:把腾讯社招的每个分页的职位名称及链接、类型、人数、工作地点、发布日期爬取下来,然后存储到json文件里面思路: 1. 新建爬虫项目 2. 在items.py文件里面设置存储的字段名称及类型 ...原创 2018-07-11 13:23:46 · 1329 阅读 · 0 评论 -
python引用其他路径包里面模块方法总结
问题:一个文件夹c下的模块test要引用另一个包b里面模块test2的函数add,如下图解决办法:经过前辈oyljerry等的指点迷津,要在sys.path添加包a的路径,永久添加则在/usr/lib/python2.7/dist-packages添加一个pth文件。如临时添加测试,可以使用列表函数append把该路径放入列表尾部即可。为什么不是包b的路径呢?因为虽然a和b都是一个包,...原创 2018-04-26 03:26:44 · 25030 阅读 · 0 评论