aini4568-CSDN博客

转载 python 多进程数量对爬虫程序的影响

1. 首先看一下 python 多进程的优点和缺点　　多进程优点： 1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。 ...

2019-09-12 13:16:00 684

转载 python 使用sort 对列表排序的性能测试

首先对一百万数据进行排序：　　　　对一千万数据进行排序：　　　　对一亿数据进行排序：　　　　　　　　　　　　转载于:https://www.cnblogs.com/xuchunlin/p/11441160.html...

2019-09-01 00:20:00 688

转载使用 python set 去重速度到底是多快呢？？？

这次去测试一下 python 的set去重，速度怎么样？我们要做的是把文件一次性读取到内存中，然后去重，输出去重的长度。第一步：对121w 条数据去重，看去重话费的时间　　上证据：　　　　　　第二步：对1210 w 条数据去重，看去重话费的时间　　　　　　第三步：对1.21 亿条数据去重，看去重话费的时间　　　　　　...

2019-08-29 17:09:00 592

转载搜狐视频登录 md5 加密破解

这是一个简单的md5加密，可以学习一下js加密的破解流程，当一个入门级的教程第一步：请求抓包　　　　　password是32位的字母和数字组合，猜测可能是md5加密，我们md5在线工具上试一下　　　　　　　　　　发现我们的猜测是完全正确的第二步：搜索js加密字段　　　　　　第三步：静态分析js，打断点　　　　1.　　　　　　　　2....

2019-08-29 10:09:00 645

转载大众点评评论数据抓取反爬虫措施有css文字映射和字体库反爬虫

大众点评评论数据抓取反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些：　　封ip，封账号，字体库反爬虫，css文字映射，图形滑动验证码　　　　　　　　　　　　　　　　　　　　这个图片是滑动验证码，访问频率高的话，会出现这个滑动验证码　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　...

2019-08-29 09:51:00 750

转载京东js加密 nloginpwd 破解

京东登录，有一个参数nloginpwd，是加密字段。第一步：浏览器抓包　　　　第二部：搜索加密字段 js 代码　　　　第三部：下断点　　　　2.　　　　　js代码：var navigator = {};var window = {};var Base64 = {};var ...

2019-08-28 16:53:00 1693

转载 python 实现 DES CBC模式加解密

# -*- coding=utf-8-*-from Crypto.Cipher import DESimport base64"""des cbc加密算法padding : PKCS5"""class DESUtil: __BLOCK_SIZE_8 = BLOCK_SIZE_8 = DES.block_size __IV =...

2019-08-28 08:29:00 1502

转载 python 实现 AES CBC模式加解密

AES加密方式有五种：ECB, CBC, CTR, CFB, OFB从安全性角度推荐CBC加密方法，本文介绍了CBC,ECB两种加密方法的python实现python 在Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodomepython 在Linux下使用AES时要安装的是pycrypto模块pi...

2019-08-28 08:25:00 1342

转载 python 实现 AES ECB模式加解密

AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。AES加密数据块分组长度必须为128比特，密钥长度可以是128比特、192比特、256比特中的任意一个。（8比特 == 1字节）在CBC、CFB、OFB、CTR模式下除了密钥外，还需要一个初始化向IV。（ECB模式不用IV）代码：　　# -*- coding=utf-8-*-f...

2019-08-28 08:18:00 885

转载某个新闻网站抓去自媒体账号 queryId js破解

第一步：发现加密第二部：搜索加密参数 queryId　　第三部：找到js核心加密代码第四部：代码实现window = {}function utf8ToBase64(t) { console.log(t) aa = window.btoa(unescape(encodeURIComponen...

2019-08-27 15:30:00 154

转载 rsa 解密过程

直接扣js代码　　$w = {};if (typeof $w.RSAUtils === 'undefined') var RSAUtils = $w.RSAUtils = {};var biRadixBase = 2;var biRadixBits = 16;var bitsPerDigit = biRadixBits;var biRadix = 1 &l...

2019-08-27 15:13:00 220

转载计算机 KB,MB,GB,TB,PB,EB 计算

ASCII码：一个英文字母（不分大小写）占一个字节的空间。一个二进制数字序列，在计算机中作为一个数字单元，一般为8位二进制数。换算为十进制，最小值-128，最大值127。如一个ASCII码就是一个字节。UTF-8编码：一个英文字符等于一个字节，一个中文（含繁体）等于三个字节。中文标点占三个字节，英文标点占一个字节Unicode编码：一个英文等于两个字节，一个中文（含繁体）等于两个...

2019-08-26 13:32:00 1465

转载 python 验证码识别示例（五）简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式，没有扭曲和变现。就用pytesseract 去识别一下。验证码地址：http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html需要识别的验证码是：因为这个验证码有干扰点，所以直接识别的效果非常不好。首先对验证码进行二值化和降噪。效果如下：识别结...

2019-08-10 23:59:00 512

转载 python 验证码识别示例（四）简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式，没有扭曲和变现。就用pytesseract 去识别一下。验证码地址：http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947需要识别的验证码是：识别结果是：识别率百分之八十。10个有两个错误。识别代码：#coding:u...

2019-08-10 23:54:00 271

转载 python 验证码识别示例（三）简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式，没有扭曲和变现。就用pytesseract 去识别一下。验证码地址：https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414需要识别的验证码是：识别结果是：识别代码是：#coding:utf-8from c...

2019-08-10 23:46:00 236

转载信用中国（广西验证码二值化和降噪）

对于普通的字符型验证码，如果可以分割，那么降噪和二值化以后，就很容易识别了。这篇博客主演是对验证码进行降噪和二值化。下面的图片是处理前的验证码和处理后的验证码截图：下面是登录的验证码：下面是验证码处理前后的对比降噪代码不再附加转载于:https://www...

2019-08-07 13:19:00 197

转载 unicode转换为中文

unicode转换为中文\u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u7279\u90e1\u74e6\u827e\u6ce2\u65af\u987f\uff0c\u82f1\u56fd\u9996\u76f8\u70ed\u95e8\u5019\u90...

2019-07-22 14:48:00 24537

转载烦人的警告 Deprecated: convertStrings was not specified when starting the JVM

python 调用java代码：　　Deprecated: convertStrings was not specified when starting the JVM. The defaultbehavior in JPype will be False starting in JPype 0.8. The recommended settingfor new co...

2019-07-11 13:32:00 787

转载 Python 推送RabbitMQ

username = 'xxxxxxxx'pwd = 'xxxxxxxx'user_pwd = pika.PlainCredentials(username, pwd)s_conn = pika.BlockingConnection(pika.ConnectionParameters('110.318.111.211', credentials=user_pwd))c...

2019-06-20 08:37:00 200

转载人不成熟的五大特征：立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言（你中了几条？）...

人不成熟的五大特征：立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言（你中了几条？）转载自：管理晨读原文链接：https://mp.weixin.qq.com/s/qYIiYZy3S73bqONy08dsSg作者|张瑞敏来源|人民日报这个社会有很多的成年人，还没有脱离幼稚的行为，一点小事情就跟别人争来争去。1 人不成熟的...

2019-05-31 09:10:00 200

转载使用 xpath helper 提取网页链接

需求是这样的，公司某个部门不会爬虫，不懂任何技术性的东西，但是希望去提取网页的一个分享链接，老大要求去开发谷歌浏览器插件，但一时半会也搞不定这个啊，想到用xpath helper 作为一个临时的替补方案；第一步：下载安装谷歌xpath helper 这个插件　　chrome插件XPath Helper的下载与安装　　参考教程https://blo...

2019-05-28 10:33:00 563

转载 Python 爬虫js加密破解（四） 360云盘登录password加密

登录链接：https://yunpan.360.cn/mindex/login这是一个md5 加密算法，直接使用 md5加密即可实现本文讲解的是如何抠出js，运行代码第一部：抓包如图　　　　第二步：调试，打断点；　　　　第三步：找到js，扣出来；　　　　第四部：运行js文件；　　...

2019-05-23 15:33:00 295

转载 Python 爬虫js加密破解（三）百度翻译 sign

第一步：模拟抓包分析加密参数　　　　第二步：找到加密字段调试出来的sign和抓取得到的数据一致，都是275626.55195第三部：分析js加密方法　　第四部：运行js代码；...

2019-05-16 11:33:00 192

转载 Python 获得最近一个月的每天的日期

直接上代码：#coding:utf-8# from common.contest import *import datetimeimport timebegin_date = (datetime.datetime.now() - datetime.timedelta(days =30)).strftime("%Y-%m-%d")date_list = ...

2019-04-17 11:52:00 442

转载 VNC Viewer 设置屏幕分辨率

1.第一种方法：使用geometry参数进行调整vncserver -geometry 1280x1024即可，之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是*2.第二种方法：修改配置文件vncservers[root@secdb ~]# vi /etc/sysconfig/vncservers# Th...

2019-04-11 22:06:00 5050

转载单表40G,不要吃惊，还能往里面插入数据，哈哈

单表40G,不要吃惊，还能往里面插入数据，哈哈上图：转载于:https://www.cnblogs.com/xuchunlin/p/10676935.html

2019-04-09 15:03:00 102

转载谁是谁的谁多

(function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, a = this.href.indexOf("url="), c = this.href.indexOf(...

2019-04-04 10:21:00 117

转载 300万数据去重问题

问题：有一个300w行的文件，需要给他去重，有什么好的方法，前提是速度要快。我的实现方式是：1 .文件读取到内存中2.在内存中去重3.插入到MySQL中去。300万行数据，实现去重只需要80秒想提高插入速度可以批量插入和并发插入数据。直接上代码：# coding:utf-8from common.contest import *impo...

2019-03-13 15:09:00 203

转载 ip代理优化

如何保证可用ip不低于2000个，代理ip池优化策略第一：获得大量ip；第二：验证可用ip；第三：监控可用ip；第三：保证可用ip不低于3000或者5000；截图是实时可用ip数量心得：不要用什么 VPS虚拟主机拨号或者ADSL拨号代理，好好地优化ip池，会有足够的 ip 够我们使用的。转载于:https://www.cnbl...

2019-02-27 13:43:00 163

转载爬虫破解js加密破解（二）有道词典js加密参数 sign破解

在爬虫过程中，经常给服务器造成压力（比如耗尽CPU，内存，带宽等），为了减少不必要的访问（比如爬虫），网页开发者就发明了反爬虫技术。　　　　常见的反爬虫技术有封ip，user_agent，字体库，js加密，验证码（字符验证码，滑动验证码，点触式验证码等）。所谓魔高一尺道高一丈。有反爬虫，就有反反爬虫技术。本文重要讲js加密的破解方法。js加密一般是在请求头或者请求参数加入加...

2019-02-21 14:51:00 267

转载搜狗微信为了保护你的网络安全，请输入验证码

我的网络安全需要搜狗微信的验证码保护吗？真他妈的扯淡。破解方法：不停更换snuid转载于:https://www.cnblogs.com/xuchunlin/p/10374236.html

2019-02-14 14:00:00 424

转载 MYSQL单表可以存储多少条数据？？？

MYSQL单表可以存储多少条数据？？？单表存储四千万条数据，说MySQL不行的自己打脸吧。多说一句话，对于爬虫来说，任何数据库，仅仅是存储数据的地方，最关心的是能否存储数据和存储多少数据以及存储数据的速度而已。至于后期的处理需要查询，完全可以用ES或者其他的数据库。转载于:https://www.cnblogs.com/xuchunlin/p...

2019-02-14 09:49:00 1118

转载进程，线程，协程的区别

进程不共享任何状态调度由操作系统完成有独立的内存空间（上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息，开销大）通讯主要通过信号传递的方式来实现（实现方式有多种，信号量、管道、事件等，通讯都需要过内核，效率低）线程共享变量（解决了通讯麻烦的问题，但是对于变量的访问需要加锁）调度...

2019-01-28 11:02:00 74

转载 ES 安装 head安装

https://www.elastic.co/downloads/elasticsearchhttp://www.cnblogs.com/xuxy03/p/6039999.htmlhttps://blog.csdn.net/camelcanoe/article/details/79528265转载于:https://www.cnblogs.com/xuchunli...

2019-01-08 15:42:00 62

转载 ES 插入十万条数据耗时1573秒

转载于:https://www.cnblogs.com/xuchunlin/p/10213927.html

2019-01-03 14:17:00 1037

转载淘宝频繁访问会出现滑动验证码

频繁的访问淘宝一个链接，然后抛出来一个滑动验证码，测试后发现淘宝发现某个ip请求频繁，就跑出验证码。解决办法是ip池转载于:https://www.cnblogs.com/xuchunlin/p/10194919.html...

2018-12-29 11:39:00 8157

转载百度资讯爬虫解决方案

前言：本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法第一步：关键词搜索　　1. 我们要找到适合自己的关键词，注意关键词决定着我们能否搜索到优质的数据，所以找到足够多的关键词，优质的关键词，能让我们采集更多的数据。　　2.搜索按照时间大小排序，在第一页解析出来新闻标题，新闻来源，新闻发布时间，新闻简单描述，新闻url链接。 ...

2018-12-26 19:20:00 386

转载人的一生会遇到什么样的痛苦？？？？

最近发生了一些事情，感觉自己走到了人生的巅峰，但是又发生了一些事情，使人生坠入了低谷，我突然想起来一句话，人的一生经得起什么样的磨难，就能取得什么样的成就，我从小到大吃过了太多的苦，作过很多难，吃过无数次亏，他们都没有打倒我，每次从新站起来了。这次一定打不倒我，不出半年我还会站起来的，加油。 ----人的一生经得起什么样的磨难，就能取得什么样的成...

2018-12-20 09:39:00 130

转载 python gb2312 转换为 utf-8

　　url = "" headers = { "Host":"www.chinanews.com", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Saf...

2018-12-04 15:16:00 841

转载爬虫需要什么样的 CPU，内存和带宽

所有的需求都看这个图片吧，这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。转载于:https://www.cnblogs.com/xuchunlin/p/10058412.html...

2018-12-03 14:46:00 2240

空空如也

空空如也