aini4568的博客

私信 关注
aini4568
码龄5年
  • 55,932
    被访问量
  • 暂无
    原创文章
  • 249,807
    作者排名
  • 9
    粉丝数量
  • 于 2016-03-18 加入CSDN
获得成就
  • 获得7次点赞
  • 内容获得0次评论
  • 获得45次收藏
荣誉勋章
  • 最近
  • 文章
  • 资源
  • 问答
  • 课程
  • 帖子
  • 收藏
  • 关注/订阅

python 多进程数量 对爬虫程序的影响

1. 首先看一下 python 多进程的优点和缺点  多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。基于这个特性,常常会用多进程来实现守护服务器的功能。 然而多线程不足之处在于,任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池。 ...
转载
115阅读
0评论
0点赞
发布博客于 2 年前

python 使用sort 对列表排序的性能测试

首先对一百万数据进行排序:    对一千万数据进行排序:    对一亿数据进行排序:            转载于:https://www.cnblogs.com/xuchunlin/p/11441160.html...
转载
209阅读
0评论
0点赞
发布博客于 2 年前

使用 python set 去重 速度到底是多快呢???

这次去测试一下 python 的set去重,速度怎么样?我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。第一步:对121w 条数据去重,看去重话费的时间  上证据:      第二步:对1210 w 条数据去重,看去重话费的时间      第三步:对1.21 亿 条数据去重,看去重话费的时间      ...
转载
151阅读
0评论
0点赞
发布博客于 2 年前

搜狐视频 登录 md5 加密破解

这是一个简单的md5加密,可以学习一下js加密的破解流程,当一个入门级的教程第一步:请求抓包     password是32位的字母和数字组合,猜测可能是md5加密,我们md5在线工具上试一下          发现我们的猜测是完全正确的第二步:搜索js加密字段      第三步: 静态分析js,打断点    1.        2....
转载
26阅读
0评论
0点赞
发布博客于 2 年前

大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫

大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些:  封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码                    这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码                                              ...
转载
286阅读
0评论
0点赞
发布博客于 2 年前

爱奇艺 登录 加密字段 passwd 破解

这是一个rsa加密,并且每次加密候的数据固定不变。第一步:查看加密字段第二步:搜索加密参数第三步:打断点调试    1        2            3.    第四部:js调试工具调试    第五步:源码    function c(a) {var b = f,...
转载
53阅读
0评论
0点赞
发布博客于 2 年前

python 实现 AES CBC模式加解密

AES加密方式有五种:ECB, CBC, CTR, CFB, OFB从安全性角度推荐CBC加密方法,本文介绍了CBC,ECB两种加密方法的python实现python 在Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodomepython 在Linux下使用AES时要安装的是pycrypto模块pi...
转载
348阅读
0评论
0点赞
发布博客于 2 年前

京东js加密 nloginpwd 破解

京东登录,有一个参数nloginpwd,是加密字段。第一步:浏览器抓包    第二部:搜索加密字段 js 代码    第三部: 下断点    2.     js代码:var navigator = {};var window = {};var Base64 = {};var ...
转载
134阅读
0评论
0点赞
发布博客于 2 年前

python 实现 DES CBC模式加解密

# -*- coding=utf-8-*-from Crypto.Cipher import DESimport base64"""des cbc加密算法padding : PKCS5"""class DESUtil: __BLOCK_SIZE_8 = BLOCK_SIZE_8 = DES.block_size __IV =...
转载
330阅读
0评论
0点赞
发布博客于 2 年前

某个新闻网站抓去自媒体账号 queryId js破解

第一步: 发现加密第二部:搜索加密参数 queryId  第三部:找到js核心加密代码第四部:代码实现window = {}function utf8ToBase64(t) { console.log(t) aa = window.btoa(unescape(encodeURIComponen...
转载
10阅读
0评论
0点赞
发布博客于 2 年前

python 实现 AES ECB模式加解密

AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。AES加密数据块分组长度必须为128比特,密钥长度可以是128比特、192比特、256比特中的任意一个。(8比特 == 1字节)在CBC、CFB、OFB、CTR模式下除了密钥外,还需要一个初始化向IV。(ECB模式不用IV)代码:  # -*- coding=utf-8-*-f...
转载
310阅读
0评论
0点赞
发布博客于 2 年前

计算机 KB,MB,GB,TB,PB,EB 计算

ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制,最小值-128,最大值127。如一个ASCII码就是一个字节。UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个...
转载
108阅读
0评论
0点赞
发布博客于 2 年前

rsa 解密过程

直接扣js代码  $w = {};if (typeof $w.RSAUtils === 'undefined') var RSAUtils = $w.RSAUtils = {};var biRadixBase = 2;var biRadixBits = 16;var bitsPerDigit = biRadixBits;var biRadix = 1 &l...
转载
66阅读
0评论
0点赞
发布博客于 2 年前

python 验证码识别示例(四) 简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947需要识别的验证码是:识别结果是:识别率百分之八十。10个有两个错误。识别代码:#coding:u...
转载
111阅读
0评论
0点赞
发布博客于 2 年前

python 验证码识别示例(五) 简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html需要识别的验证码是:因为这个验证码有干扰点,所以直接识别的效果非常不好。首先对验证码进行二值化和降噪。效果如下:识别结...
转载
104阅读
0评论
0点赞
发布博客于 2 年前

信用中国(广西验证码二值化和降噪)

对于普通的字符型验证码,如果可以分割,那么降噪和二值化以后,就很容易识别了。这篇博客主演是对验证码进行降噪和二值化。下面的图片是处理前的验证码和处理后的验证码截图:下面是登录的验证码: 下面是验证码处理前后的对比 降噪代码不再附加转载于:https://www...
转载
45阅读
0评论
0点赞
发布博客于 2 年前

python 验证码识别示例(三) 简单验证码识别

今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414需要识别的验证码是:识别结果是:识别代码是:#coding:utf-8from c...
转载
60阅读
0评论
0点赞
发布博客于 2 年前

unicode转换为中文

unicode转换为中文\u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u7279\u90e1\u74e6\u827e\u6ce2\u65af\u987f\uff0c\u82f1\u56fd\u9996\u76f8\u70ed\u95e8\u5019\u90...
转载
113阅读
0评论
0点赞
发布博客于 2 年前

烦人的警告 Deprecated: convertStrings was not specified when starting the JVM

python 调用java代码:  Deprecated: convertStrings was not specified when starting the JVM. The defaultbehavior in JPype will be False starting in JPype 0.8. The recommended settingfor new co...
转载
80阅读
0评论
0点赞
发布博客于 2 年前

人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)...

人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)转载自:管理晨读原文链接:https://mp.weixin.qq.com/s/qYIiYZy3S73bqONy08dsSg作者|张瑞敏来源|人民日报这个社会有很多的成年人,还没有脱离幼稚的行为,一点小事情就跟别人争来争去。1 人不成熟的...
转载
22阅读
0评论
0点赞
发布博客于 2 年前

使用 xpath helper 提取网页链接

需求是这样的,公司某个部门不会爬虫,不懂任何技术性的东西,但是希望去提取网页的一个分享链接,老大要求去开发谷歌浏览器插件,但一时半会也搞不定这个啊,想到用xpath helper 作为一个临时的替补方案;第一步:下载 安装 谷歌xpath helper 这个插件  chrome插件XPath Helper的下载与安装  参考教程https://blo...
转载
38阅读
0评论
0点赞
发布博客于 2 年前

Python 爬虫js加密破解(四) 360云盘登录password加密

登录链接:https://yunpan.360.cn/mindex/login这是一个md5 加密算法,直接使用 md5加密即可实现本文讲解的是如何抠出js,运行代码第一部:抓包如图     第二步:调试,打断点;    第三步:找到js,扣出来;    第四部:运行js文件;  ...
转载
33阅读
0评论
0点赞
发布博客于 2 年前

Python 爬虫js加密破解(三) 百度翻译 sign

第一步: 模拟抓包分析加密参数    第二步: 找到加密字段 调试出来的sign和抓取得到的数据一致,都是275626.55195第三部: 分析js加密方法  第四部:运行js代码;...
转载
35阅读
0评论
0点赞
发布博客于 2 年前

Python 获得最近一个月的每天的日期

直接上代码:#coding:utf-8# from common.contest import *import datetimeimport timebegin_date = (datetime.datetime.now() - datetime.timedelta(days =30)).strftime("%Y-%m-%d")date_list = ...
转载
117阅读
0评论
0点赞
发布博客于 2 年前

VNC Viewer 设置屏幕分辨率

1.第一种方法:使用geometry参数进行调整vncserver -geometry 1280x1024即可,之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是*2.第二种方法:修改配置文件vncservers[root@secdb ~]# vi /etc/sysconfig/vncservers# Th...
转载
925阅读
0评论
0点赞
发布博客于 2 年前

单表40G,不要吃惊,还能往里面插入数据,哈哈

单表40G,不要吃惊,还能往里面插入数据,哈哈上图:转载于:https://www.cnblogs.com/xuchunlin/p/10676935.html
转载
25阅读
0评论
0点赞
发布博客于 2 年前

谁是谁的谁多

(function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, a = this.href.indexOf("url="), c = this.href.indexOf(...
转载
46阅读
0评论
0点赞
发布博客于 2 年前

ip代理优化

如何保证可用ip不低于2000个,代理ip池优化策略第一:获得大量ip;第二:验证可用ip;第三:监控可用ip;第三:保证可用ip不低于3000或者5000;截图是实时可用ip数量心得:不要用什么 VPS虚拟主机拨号 或者ADSL拨号代理,好好地优化ip池,会有足够的 ip 够我们使用的。转载于:https://www.cnbl...
转载
25阅读
0评论
0点赞
发布博客于 2 年前

爬虫破解js加密破解(二) 有道词典js加密参数 sign破解

在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术。    常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等)。所谓魔高一尺道高一丈。有反爬虫,就有反反爬虫技术。本文重要讲js加密的破解方法。js加密一般是在请求头或者请求参数加入加...
转载
17阅读
0评论
0点赞
发布博客于 2 年前

MYSQL单表可以存储多少条数据???

MYSQL单表可以存储多少条数据???单表存储四千万条数据,说MySQL不行的自己打脸吧。多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。至于后期的处理需要查询,完全可以用ES或者其他的数据库。转载于:https://www.cnblogs.com/xuchunlin/p...
转载
723阅读
0评论
0点赞
发布博客于 2 年前

搜狗微信 为了保护你的网络安全,请输入验证码

我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。破解方法:不停更换snuid转载于:https://www.cnblogs.com/xuchunlin/p/10374236.html
转载
185阅读
0评论
0点赞
发布博客于 2 年前

进程,线程,协程的区别

进程不共享任何状态调度由操作系统完成有独立的内存空间(上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息,开销大)通讯主要通过信号传递的方式来实现(实现方式有多种,信号量、管道、事件等,通讯都需要过内核,效率低)线程共享变量(解决了通讯麻烦的问题,但是对于变量的访问需要加锁)调度...
转载
9阅读
0评论
0点赞
发布博客于 2 年前

ES 安装 head安装

https://www.elastic.co/downloads/elasticsearchhttp://www.cnblogs.com/xuxy03/p/6039999.htmlhttps://blog.csdn.net/camelcanoe/article/details/79528265转载于:https://www.cnblogs.com/xuchunli...
转载
5阅读
0评论
0点赞
发布博客于 2 年前

ES 插入十万条数据耗时1573秒

转载于:https://www.cnblogs.com/xuchunlin/p/10213927.html
转载
413阅读
0评论
0点赞
发布博客于 2 年前

淘宝频繁访问会出现滑动验证码

频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池转载于:https://www.cnblogs.com/xuchunlin/p/10194919.html...
转载
2115阅读
0评论
0点赞
发布博客于 3 年前

人的一生会遇到什么样的痛苦????

最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ----人的一生经得起什么样的磨难,就能取得什么样的成...
转载
40阅读
0评论
0点赞
发布博客于 3 年前

百度 资讯 爬虫解决方案

前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法第一步:关键词搜索  1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。  2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。 ...
转载
96阅读
0评论
0点赞
发布博客于 3 年前

爬虫 需要什么样的 CPU,内存 和带宽

所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。转载于:https://www.cnblogs.com/xuchunlin/p/10058412.html...
转载
481阅读
0评论
0点赞
发布博客于 3 年前

python gb2312 转换为 utf-8

  url = "" headers = { "Host":"www.chinanews.com", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Saf...
转载
355阅读
0评论
0点赞
发布博客于 3 年前

TypeError: sequence item 0: expected string, Tag found

原始代码:soup = BeautifulSoup(result, 'html.parser')content_list = soup.find_all('p', attrs={"class": "art_p"})content = '<br/>'.join(content_list)报错内容是:Traceback (most recen...
转载
65阅读
0评论
0点赞
发布博客于 3 年前

MySQL (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' ...

(1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1")针对MySQL的这个错误,修改方法是set names utf8mb4;SET CHARACTER SET utf8mb4;SET character_se...
转载
57阅读
0评论
0点赞
发布博客于 3 年前

MySQL 数据的 截取,数据清洗

Mysql字符串截取函数SUBSTRING的用法说明函数: 1、从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例:select left(content,200) as abstract from my_content_t 2、从右开始截取字符串 right(str, length) 说明:right(...
转载
40阅读
0评论
0点赞
发布博客于 3 年前

微博爬虫 ----- 微博发布时间清洗

from datetime import datetimefrom datetime import timedeltaif "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M')elif "分钟" in publish_time: ...
转载
66阅读
0评论
0点赞
发布博客于 3 年前

ReferenceError: weakly-referenced object no longer exists Python kafka

Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。Exception in thread 14: pykafka.OwnedBroker.queue_reader for broker 101:Traceback (most recent call last): File ...
转载
723阅读
0评论
0点赞
发布博客于 3 年前

爬虫工程师最牛逼的地方是什么???

爬虫工程师最牛逼的地方是什么???爬虫工程师最牛逼的地方是什么???爬虫工程师最牛逼的地方是什么???今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是:爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去改正这个错误,我认为这个是牛逼的地方。有人会说了,做web网站的时候,也会遇到错误,...
转载
52阅读
0评论
0点赞
发布博客于 3 年前

爬虫 解决302 问题

  一:问题描述:  爬虫微博信息,出现302跳转,  比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1)  然后跳转的URL是:https://weibo.com/sgccjsdl?refer_flag=1001030103_&is_hot=1(图片中标记为2...
转载
736阅读
0评论
0点赞
发布博客于 3 年前

Python 字符串过滤

需求:str1 = """"<div class="m_wrap clearfix"><ul class="clearfix"><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><b...
转载
18阅读
0评论
0点赞
发布博客于 3 年前

快速排序算法的两种实现思路(附源代码)

转载于:https://www.cnblogs.com/xuchunlin/p/9428830.html
转载
45阅读
0评论
0点赞
发布博客于 3 年前

python 验证码识别示例(二) 复杂验证码识别

  在这篇博文中手把手教你如何去分割验证,然后进行识别。一:下载验证码      验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大二:二值化和降噪:    三: 切割:    四:分类:    五: 测试识...
转载
366阅读
0评论
1点赞
发布博客于 3 年前

python 验证码识别示例(一) 某个网站验证码识别

某个招聘网站的验证码识别,过程如下一: 原始验证码:二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色                                变色后的图片三: 通过观察,发现该验证码有折...
转载
119阅读
0评论
0点赞
发布博客于 3 年前

爬虫 大规模数据 采集心得和示例

本篇主要介绍网站数据非常大的采集心得1. 什么样的数据才能称为数据量大:  我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机硬件资源等。这里我姑且把一个网站超过一千万个URL链接的叫做数据量大的网站。...
转载
143阅读
0评论
0点赞
发布博客于 3 年前

爬虫 修改 下拉框

爬取某个网站,可以通过修改下拉框来实现数据批量加载上图我们可以看到 view 下面的下拉框 的值是25 ,50 ,100 ,200。我们把200的值修改为5200,然后提交页面然后直接出来所有的数据,不在需要做翻页:爽不爽啊,请求的时候注意把cookie复制到请求头里面,有些网站是通过cookie控制翻页的转载于:h...
转载
69阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(15) 爬取 百度百聘(微信公众号)

今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考直接上代码:#-*-coding:utf-8-*-from common.contest import *def spider(): headers = { "Host":"zhaopin.baidu.com", "Connection":"keep-aliv...
转载
8阅读
0评论
0点赞
发布博客于 3 年前

验证码识别之图像切割算法(三) 连通域分割

切割前:    切割后:         代码:#-*-coding:utf-8-*-from PIL import Imageimport queuedef cfs(img): """传入二值化后的图片进行连通域分割""" pixdata = img.load() w, h = img.size vi...
转载
26阅读
0评论
0点赞
发布博客于 3 年前

验证码识别之图像切割算法(二)

备注(易拍全球)切割前: 切割后: 切割前: 切割后:         好了,上代码:#-*-coding:utf-8-*-from PIL import Imagedef smartSliceImg(img, outDir...
转载
264阅读
0评论
0点赞
发布博客于 3 年前

验证码识别之图像切割算法(一)

原来验证码:切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 直接上代码:#-*-coding:utf-8-*-from PIL import Im...
转载
199阅读
0评论
0点赞
发布博客于 3 年前

验证码识别 图像降噪 算法 Python (二)

处理器图像:处理后图像:代码:from PIL import Imageimage = Image.open('4.jpg')image = image.convert('L')image.show()import numpy as npimage = np.asarray(image)image = (image >...
转载
51阅读
0评论
0点赞
发布博客于 3 年前

验证码识别一般思路

在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮度很高的图像2)平均值法:命R、G、B的值等于三者的平均值,即R=G=B=avg(...
转载
39阅读
0评论
0点赞
发布博客于 3 年前

验证码识别 图像降噪 Python (一)

原始图片:降噪后的图片实现代码:# coding:utf-8import sys, osfrom PIL import Image, ImageDraw# 二值数组t2val = {}def twoValue(image, G): for y in xrange(0, image.size[1...
转载
81阅读
0评论
0点赞
发布博客于 3 年前

爬虫对自己服务器 CPU,内存和网速的影响

今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。  在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线程去写爬虫的时候,速度并不慢,这是为何呢?因为爬虫是偏向于io的,网络IO和磁盘i...
转载
215阅读
0评论
0点赞
发布博客于 3 年前

怎样将包含元组的列表转换为字典?

原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action', 'Browse')]转换结果是:{'language': '[1,g]', ...
转载
631阅读
0评论
0点赞
发布博客于 3 年前

selenium 实现网页截图

使用webdriver提供的save_screenshot方法:from selenium import webdriverdriver = webdriver.Chrome()driver.get('https://www.duba.com/?f=liebaont')driver.save_screenshot('D:/111.PNG')driver.q...
转载
30阅读
0评论
0点赞
发布博客于 3 年前

爬虫遇到的坑——发现你是爬虫抛出假数据

在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下,最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据:解决办法:每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。转载于:https://w...
转载
196阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)

有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。一:爬虫的目标:打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面我们的目标是  点击找车,然后出现如下图  我们要把图中的信息抓取...
转载
169阅读
0评论
1点赞
发布博客于 3 年前

Python 爬虫实例(14) 爬取 百度音乐

#-*-coding:utf-8-*-from common.contest import *import urllibdef spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语','民...
转载
90阅读
0评论
0点赞
发布博客于 3 年前

取一个字符串的所有靠近前面的大写字母

比如有这样的字符串TWO INDUSTRIAL STYLE WALL LIGHTS also a ceramic figure of a cobbler and a group of minor pictures 希望得到的是: TWO INDUSTRIAL STYLE WALL LIGHTS 直接上代码aa = "NINE CARAT GOLD GAR...
转载
41阅读
0评论
0点赞
发布博客于 3 年前

爬虫 配置文件

# coding:utf-8import random, reimport json, timeimport uuidfrom bs4 import BeautifulSoupimport threadingimport requestsimport MySQLdbfrom lxml import etreefrom selenium import...
转载
67阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(13) 下载 m3u8 格式视频

Python requests 下载 m3u8 格式 视频最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧:附图:抓包分析过程直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行百度吧。完整下载代码:#cod...
转载
272阅读
0评论
0点赞
发布博客于 3 年前

爬虫过程中的 数据插入 问题及其解决方案

在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题:目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两种方案第一种方案:批量插入:  因为爬取的数据量很大,我们的服务器一分钟能...
转载
86阅读
0评论
0点赞
发布博客于 3 年前

MySQL 两个数据库表中合并数据

两个数据库表中合并数据如果有 t1 和 t2 两个数据库表格,它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢?insert into t1 select * from t2INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic...
转载
2172阅读
0评论
0点赞
发布博客于 3 年前

HTTP 请求头 详解

转载:https://kb.cnblogs.com/page/92320/HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传递message-hea...
转载
30阅读
0评论
0点赞
发布博客于 3 年前

爬虫的本质是什么?

来源于:http://www.sohu.com/a/168371748_714863很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。分布式爬虫只...
转载
83阅读
0评论
0点赞
发布博客于 3 年前

使用 MD5 加密 去重对插入的影响

现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密,hashcode = md5(str(item_url))然后在数据库中设置 hashcode 为UNIQUE索引3000条数据全部插入完毕,耗时是32s不使用MD5加密,耗时30秒。结论:去重对时间影响不大转载于:https://www.cnblogs.com/xuchunlin/p/8616604.ht...
转载
19阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫 使用正则去掉不想要的网页元素

在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢?例如:下面的问题第一种情况<ahref="http://artso.artron.net/auction/search_auction.php?keyword=%E6%9E%97%E7%BB%8D%E5%91%A8"target="_blank">林绍周(明)<...
转载
115阅读
0评论
0点赞
发布博客于 3 年前

Python 图像下载解决图像损坏

在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法:方法一: if response.status_code == 200: print '==================================================' if not os.path.exists(dir_path): ...
转载
415阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫 解决escape问题

爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 &#20126;&#27954;&#31169;&#20154;&#29645;&#34255;&#36067;&#65292;&#20196;&#20189;&#22909;&#20998;&#20139;...
转载
60阅读
0评论
0点赞
发布博客于 3 年前

python 爬虫 重复下载 二次请求

在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载,有一种很low的解决方案,比如是用 try except  try: -------except: try: -------- except: try: ...
转载
16阅读
0评论
0点赞
发布博客于 3 年前

TCP协议的三次握手四次挥手

IP协议、HTTP协议、TCP协议、TCP/IP 协议我们经常遇到,而且初学的时候容易弄混。那么他们之间有什么关系呢?重点内容1、什么是TCP/IP 协议TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、HTTP协议、TCP协议等。而三次握手四次挥手就发生在TCP协议中。TCP/IP协议栈主要分为四层:应用层、传输层、网络层、数据链路层。每层都有相应的协议,具...
转载
13阅读
0评论
0点赞
发布博客于 3 年前

mysql 大数据提取

今天要重五百多万的一个数据库表 提取 大约五十万条数据,刚开始的解决思路是:  先把数据查询出来,然后再导出来,然后再设计一个数据库表格,把这些数据导入,最后导出数据和导入数据花费了很多时间,最后向同事请教一下,一个SQL 命令解决了这个问题create table t1 select * from t2 where ***解决程序运行了500s就完成了任务...
转载
78阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(12)—— python selenium 爬虫

# coding:utf-8from common.contest import *def spider():  url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79"     chromedriver = 'C:/Users/xuchunlin/AppData...
转载
41阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(11)—— 爬虫 苏宁易购

# coding:utf-8import jsonimport redisimport timeimport requestssession = requests.session()import logging.handlersimport pickleimport sysimport reimport datetimefrom bs4...
转载
210阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(10)—— 四行代码实现刷 博客园 阅读数量

代码很少,自己去体会from selenium import webdreverdriver = webdrever.Chrome()url = "http://www.cnblogs.com/xuchunlin/p/5448655.html"driver.get(url)代码不能运行,仅供参考。转载于:https://www.cn...
转载
37阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(9)—— 搜索 爬取 淘宝

# coding:utf-8import jsonimport redisimport timeimport requestssession = requests.session()import logging.handlersimport pickleimport sysimport reimport datetimefrom bs4...
转载
59阅读
0评论
0点赞
发布博客于 3 年前

Python MySQLdb 批量插入 封装

def insert_data_many(dbName,list_data_dict): try: # 得到列表的第一个字典集合 data_dict = list_data_dict[0] # 得到(s%,s%,s%,s%) data_values = "(" + "%s," * (len(data_d...
转载
81阅读
0评论
0点赞
发布博客于 3 年前

Python MySQLdb insert(插入) 封装

def insert_data(dbName,data_dict): try: data_values = "(" + "%s," * (len(data_dict)) + ")" data_values = data_values.replace(',)', ')') dbField = data_dict...
转载
199阅读
0评论
0点赞
发布博客于 3 年前

Python MySQLdb select(选择) 封装

对MySQL选择的封装def select_data(sql): conn = MySQLdb.connect(host="10.10.10.77", user="xxxxx", passwd="xxxx", db="xxxx", charset="utf8") cursor = conn.cursor(cursorclass=MySQLdb.cursors....
转载
56阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(8)—— 爬取 动态页面

今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图源代码:#-*-coding:utf-8-*-import timefrom selenium import webdriverimport osimport re#引入chromedriver.exechromedrive...
转载
153阅读
0评论
0点赞
发布博客于 3 年前

Python 爬虫实例(7)—— 爬取 新浪军事新闻

我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码:# coding:utf-8import jsonimport redisimport timeimport requestssession = ...
转载
74阅读
0评论
0点赞
发布博客于 3 年前

基于tornado的爬虫并发问题

tornado中的coroutine是python中真正意义上的协程,与python3中的asyncio几乎是完全一样的,而且两者之间的future是可以相互转换的,tornado中有与asyncio相兼容的接口。下面是利用tornado中的coroutine进行并发抓取的代码:HEADERS = {'Accept': 'text/html,application/xht...
转载
3阅读
0评论
0点赞
发布博客于 4 年前

User-Agent 信息汇总(拿去就能用)

# encoding=utf-8agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Brows...
转载
63阅读
0评论
0点赞
发布博客于 3 年前

python中decode和encode的区别

#-*-coding:utf-8import sys'''*首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。decode的作用是将其他编码的字符串转换成unicode编码,如s...
转载
147阅读
0评论
0点赞
发布博客于 4 年前

Python 爬虫 不得不说的 清洗

今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规则比较少,对于国外的网站,由于老外崇尚自由,在他们的网站中最直接的体现就是一个网站...
转载
142阅读
0评论
0点赞
发布博客于 4 年前

爬虫如何解决验证码的问题

今天要聊的就是在爬虫遇到验证码,如何去解决。  1.前言:关于验证码,我觉得是很low逼的技术,但是很多面试官都会问到如何解决验证码,好像是能识别验证的就代表了爬虫工程师的技术很牛逼,相反,爬虫工程师就是菜鸟。我觉得以此来评价爬虫工程师的水平高低,是非常不合理的。  2. 网站为何要用验证码?    网站担心别人暴力破解刷票、论坛灌水、刷页,防止爬虫爬取数据,防止别人利...
转载
504阅读
0评论
0点赞
发布博客于 4 年前

Python——验证码识别 Pillow + tesseract-ocr

至于安装教程在这里不再重复说了,可以参考博客,网上有大把的教程https://blog.csdn.net/testcs_dn/article/details/78697730要是别的验证码是如下类型的       Python 代码如下#!/usr/bin/python# -*- coding:utf-8 -*-from P...
转载
5阅读
0评论
0点赞
发布博客于 4 年前

Python Tensorflow CNN 识别验证码

Python+Tensorflow的CNN技术快速识别验证码文章来源于:https://www.jianshu.com/p/26ff7b9075a1验证码处理的流程是:验证码分析和处理——tensorflow安装——模型训练——模型预测需要的准备。  1. 安装TensorFlow  2.PIL  3. numpy  4. 用于训练的图片...
转载
60阅读
0评论
0点赞
发布博客于 4 年前

Python selenium 滚动条 详解

  在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。    selenium.common.exceptions.WebDriverException: Message: unknown error: Element is not clickable at po...
转载
132阅读
0评论
0点赞
发布博客于 4 年前

正则和xpath在网页中匹配字段的效率比较

1. 测试页面是https://www.hao123.com/,这个是百度的导航2. 为了避免网络请求带来的差异,我们把网页下载下来,命名为html,不粘贴其代码。3.测试办法:  我们在页面中找到 百度新闻 关键字的链接,为了能更好的对比,使程序运行10000次,比较时间差异:      1.正则编码及其时间   start_time...
转载
107阅读
0评论
0点赞
发布博客于 4 年前

Python 爬虫 数据清洗 去掉 超链接

有时候我们需要清洗数据,里面有超链接,怎么去掉他们,比如下面的问题<divclass="lot-page-details"><ulclass="info-list"><liclass="lot-info-item"><p><strongclass="section-header">Provenance</s...
转载
403阅读
0评论
0点赞
发布博客于 4 年前

Python 爬虫 大量数据清洗 ---- sql语句优化

1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司,  并且要求字段 time(时间) 大于7月一号,小于10月31号。2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1...
转载
176阅读
0评论
0点赞
发布博客于 4 年前

Python 运行效率为何低

当我们提到一门编程语言的效率时:通常有两层意思,第一是开发效率,这是对程序员而言,完成编码所需要的时间;另一个是运行效率,这是对计算机而言,完成计算任务所需要的时间。编码效率和运行效率往往是鱼与熊掌的关系,是很难同时兼顾的。不同的语言会有不同的侧重,python语言毫无疑问更在乎编码效率,life is short,we use python。虽然使用python的编程人员都应...
转载
48阅读
0评论
0点赞
发布博客于 4 年前