自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 python 多进程数量 对爬虫程序的影响

1. 首先看一下 python 多进程的优点和缺点    多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。基于这个特性,常常会用多进程来实现守护服务器的功能。 然而多线程不足之...

2019-09-12 13:16:00

阅读数 3

评论数 0

转载 python 使用sort 对列表排序的性能测试

首先对一百万数据进行排序:      对一千万数据进行排序:      对一亿数据进行排序:                转载于:https://www.cnblogs.com/xuchunlin/p/11441160.html...

2019-09-01 00:20:00

阅读数 10

评论数 0

转载 使用 python set 去重 速度到底是多快呢???

这次去测试一下 python 的set去重,速度怎么样? 我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。 第一步:对121w 条数据去重,看去重话费的时间   上证据:        第二步:对1210 w 条数据去重,看去重话费的时间        第三步...

2019-08-29 17:09:00

阅读数 8

评论数 0

转载 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫

大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评的反爬虫手段有那些:   封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码                      这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码            ...

2019-08-29 09:51:00

阅读数 26

评论数 0

转载 python 实现 DES CBC模式加解密

# -*- coding=utf-8-*- from Crypto.Cipher import DES import base64 """ des cbc加密算法 padding : PKCS5 """ class DESU...

2019-08-28 08:29:00

阅读数 4

评论数 0

转载 python 实现 AES CBC模式加解密

AES加密方式有五种:ECB, CBC, CTR, CFB, OFB 从安全性角度推荐CBC加密方法,本文介绍了CBC,ECB两种加密方法的python实现 python 在Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodome ...

2019-08-28 08:25:00

阅读数 5

评论数 0

转载 python 实现 AES ECB模式加解密

AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。 AES加密数据块分组长度必须为128比特,密钥长度可以是128比特、192比特、256比特中的任意一个。(8比特 == 1字节) 在CBC、CFB、OFB、CTR模式下除了密钥外,还需要一个初始化向IV。(ECB模...

2019-08-28 08:18:00

阅读数 7

评论数 0

转载 rsa 解密过程

直接扣js代码    $w = {}; if (typeof $w.RSAUtils === 'undefined') var RSAUtils = $w.RSAUtils = {}; var biRadixBase = 2; var biRadixBits = ...

2019-08-27 15:13:00

阅读数 4

评论数 0

转载 计算机 KB,MB,GB,TB,PB,EB 计算

ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制,最小值-128,最大值127。如一个ASCII码就是一个字节。 UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节...

2019-08-26 13:32:00

阅读数 1

评论数 0

转载 python 验证码识别示例(五) 简单验证码识别

今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。 验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html 需要识别的验证码是: 因为这个验证码有干扰点,所以直接识别的效...

2019-08-10 23:59:00

阅读数 2

评论数 0

转载 python 验证码识别示例(四) 简单验证码识别

今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。 验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947 需要识别的验证码是: 识别结果是: 识...

2019-08-10 23:54:00

阅读数 7

评论数 0

转载 python 验证码识别示例(三) 简单验证码识别

今天介绍一个简单验证的识别。 主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。 验证码地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414 需要识别的验证码是: 识...

2019-08-10 23:46:00

阅读数 3

评论数 0

转载 信用中国(广西验证码二值化和降噪)

对于普通的字符型验证码,如果可以分割,那么降噪和二值化以后,就很容易识别了。 这篇博客主演是对验证码进行降噪和二值化。 下面的图片是处理前的验证码和处理后的验证码截图: 下面是登录的验证码: 下面是验证码处理前后的对比 降噪代码不再附...

2019-08-07 13:19:00

阅读数 2

评论数 0

转载 unicode转换为中文

unicode转换为中文 \u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u7279\u90e1\u74e6\u827e\u6ce2\u65af\u987f\uff0c...

2019-07-22 14:48:00

阅读数 1

评论数 0

转载 烦人的警告 Deprecated: convertStrings was not specified when starting the JVM

python 调用java代码:    Deprecated: convertStrings was not specified when starting the JVM. The default behavior in JPype will be False starting in ...

2019-07-11 13:32:00

阅读数 5

评论数 0

转载 Python 推送RabbitMQ

username = 'xxxxxxxx' pwd = 'xxxxxxxx' user_pwd = pika.PlainCredentials(username, pwd) s_conn = pika.BlockingConnection(pika.C...

2019-06-20 08:37:00

阅读数 9

评论数 0

转载 Python 获得最近一个月的每天的日期

直接上代码: #coding:utf-8 # from common.contest import * import datetime import time begin_date = (datetime.datetime.now() - datetime.timedelta...

2019-04-17 11:52:00

阅读数 1

评论数 0

转载 VNC Viewer 设置屏幕分辨率

1.第一种方法:使用geometry参数进行调整 vncserver -geometry 1280x1024即可,之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是* 2.第二种方法:修改配置文件vncservers [roo...

2019-04-11 22:06:00

阅读数 222

评论数 0

转载 单表40G,不要吃惊,还能往里面插入数据,哈哈

单表40G,不要吃惊,还能往里面插入数据,哈哈 上图: 转载于:https://www.cnblogs.com/xuchunlin/p/10676935.html

2019-04-09 15:03:00

阅读数 1

评论数 0

转载 谁是谁的谁多

(function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, ...

2019-04-04 10:21:00

阅读数 8

评论数 0

转载 300万数据去重问题

问题:有一个300w行的文件,需要给他去重,有什么好的方法,前提是速度要快。 我的实现方式是: 1 .文件读取到内存中 2.在内存中去重 3.插入到MySQL中去。 300万行数据,实现去重只需要80秒 想提高插入速度可以批量插入和 并发 插入数据。 直接上代码: # codi...

2019-03-13 15:09:00

阅读数 2

评论数 0

转载 ip代理优化

如何保证可用ip不低于2000个,代理ip池优化策略 第一:获得大量ip; 第二:验证可用ip; 第三:监控可用ip; 第三:保证可用ip不低于3000或者5000; 截图是实时可用ip数量 心得:不要用什么 VPS虚拟主机拨号 或者ADSL拨号代理,好好地优化ip池,...

2019-02-27 13:43:00

阅读数 2

评论数 0

转载 搜狗微信 为了保护你的网络安全,请输入验证码

我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。 破解方法:不停更换snuid 转载于:https://www.cnblogs.com/xuchunlin/p/10374236.html

2019-02-14 14:00:00

阅读数 51

评论数 0

转载 MYSQL单表可以存储多少条数据???

MYSQL单表可以存储多少条数据??? 单表存储四千万条数据,说MySQL不行的自己打脸吧。 多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。 至于后期的处理需要查询,完全可以用ES或者其他的数据库。 ...

2019-02-14 09:49:00

阅读数 3

评论数 0

转载 ES 插入十万条数据耗时1573秒

转载于:https://www.cnblogs.com/xuchunlin/p/10213927.html

2019-01-03 14:17:00

阅读数 2

评论数 0

转载 淘宝频繁访问会出现滑动验证码

频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池 转载于:https://www.cnblogs.com/xuchunlin/p/10194919.html...

2018-12-29 11:39:00

阅读数 176

评论数 0

转载 百度 资讯 爬虫解决方案

前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法 第一步:关键词搜索   1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。   2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,...

2018-12-26 19:20:00

阅读数 15

评论数 0

转载 人的一生会遇到什么样的痛苦????

最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ...

2018-12-20 09:39:00

阅读数 3

评论数 0

转载 python gb2312 转换为 utf-8

  url = "" headers = { "Host":"www.chinanews.com", "User-Agent":"Mozilla/5....

2018-12-04 15:16:00

阅读数 41

评论数 0

转载 爬虫 需要什么样的 CPU,内存 和带宽

所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。 转载于:https://www.cnblogs.com/xuchunlin/p/10058412.html...

2018-12-03 14:46:00

阅读数 28

评论数 0

转载 TypeError: sequence item 0: expected string, Tag found

原始代码: soup = BeautifulSoup(result, 'html.parser') content_list = soup.find_all('p', attrs={"class": "art_p&quo...

2018-11-27 17:54:00

阅读数 1

评论数 0

转载 MySQL 数据的 截取,数据清洗

Mysql字符串截取函数SUBSTRING的用法说明 函数: 1、从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例:select left(content,200) as abstract from my_content_t ...

2018-11-21 11:04:00

阅读数 9

评论数 0

转载 MySQL (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' ...

(1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1") 针对MySQL的这个错误, ...

2018-10-19 10:50:00

阅读数 1

评论数 0

转载 微博爬虫 ----- 微博发布时间清洗

from datetime import datetime from datetime import timedelta if "刚刚" in publish_time: publish_time = datetime.now().strftime('...

2018-10-19 09:28:00

阅读数 1

评论数 0

转载 ReferenceError: weakly-referenced object no longer exists Python kafka

Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。 Exception in thread 14: pykafka.OwnedBroker.queue_reader for broker 101...

2018-10-08 13:53:00

阅读数 20

评论数 0

转载 爬虫工程师最牛逼的地方是什么???

爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么??? 今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是: 爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去...

2018-09-26 11:08:00

阅读数 1

评论数 0

转载 爬虫 解决302 问题

   一:问题描述:   爬虫微博信息,出现302跳转,   比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1)   然后跳转的URL是:https://weibo.com/sgccjsdl?ref...

2018-09-21 18:42:00

阅读数 99

评论数 0

转载 python 验证码识别示例(二) 复杂验证码识别

  在这篇博文中手把手教你如何去分割验证,然后进行识别。 一:下载验证码        验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大 二:二值化和降噪:       三:...

2018-08-10 17:55:00

阅读数 51

评论数 0

转载 快速排序算法的两种实现思路(附源代码)

转载于:https://www.cnblogs.com/xuchunlin/p/9428830.html

2018-08-06 10:19:00

阅读数 1

评论数 0

转载 python 验证码识别示例(一) 某个网站验证码识别

某个招聘网站的验证码识别,过程如下 一: 原始验证码: 二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色                  ...

2018-08-03 18:07:00

阅读数 14

评论数 0

提示
确定要删除当前文章?
取消 删除