python 多进程数量 对爬虫程序的影响 1. 首先看一下 python 多进程的优点和缺点 多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。基于这个特性,常常会用多进程来实现守护服务器的功能。 然而多线程不足之处在于,任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池。 ...
python 使用sort 对列表排序的性能测试 首先对一百万数据进行排序: 对一千万数据进行排序: 对一亿数据进行排序: 转载于:https://www.cnblogs.com/xuchunlin/p/11441160.html...
使用 python set 去重 速度到底是多快呢??? 这次去测试一下 python 的set去重,速度怎么样?我们要做的是把文件一次性读取到内存中,然后去重,输出去重的长度。第一步:对121w 条数据去重,看去重话费的时间 上证据: 第二步:对1210 w 条数据去重,看去重话费的时间 第三步:对1.21 亿 条数据去重,看去重话费的时间 ...
搜狐视频 登录 md5 加密破解 这是一个简单的md5加密,可以学习一下js加密的破解流程,当一个入门级的教程第一步:请求抓包 password是32位的字母和数字组合,猜测可能是md5加密,我们md5在线工具上试一下 发现我们的猜测是完全正确的第二步:搜索js加密字段 第三步: 静态分析js,打断点 1. 2....
大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫 大众点评评论数据抓取 反爬虫措施有css文字映射和字体库反爬虫大众点评的反爬虫手段有那些: 封ip,封账号,字体库反爬虫,css文字映射,图形滑动验证码 这个图片是滑动验证码,访问频率高的话,会出现这个滑动验证码 ...
爱奇艺 登录 加密字段 passwd 破解 这是一个rsa加密,并且每次加密候的数据固定不变。第一步:查看加密字段第二步:搜索加密参数第三步:打断点调试 1 2 3. 第四部:js调试工具调试 第五步:源码 function c(a) {var b = f,...
python 实现 AES CBC模式加解密 AES加密方式有五种:ECB, CBC, CTR, CFB, OFB从安全性角度推荐CBC加密方法,本文介绍了CBC,ECB两种加密方法的python实现python 在Windows下使用AES时要安装的是pycryptodome 模块 pip install pycryptodomepython 在Linux下使用AES时要安装的是pycrypto模块pi...
京东js加密 nloginpwd 破解 京东登录,有一个参数nloginpwd,是加密字段。第一步:浏览器抓包 第二部:搜索加密字段 js 代码 第三部: 下断点 2. js代码:var navigator = {};var window = {};var Base64 = {};var ...
python 实现 DES CBC模式加解密 # -*- coding=utf-8-*-from Crypto.Cipher import DESimport base64"""des cbc加密算法padding : PKCS5"""class DESUtil: __BLOCK_SIZE_8 = BLOCK_SIZE_8 = DES.block_size __IV =...
某个新闻网站抓去自媒体账号 queryId js破解 第一步: 发现加密第二部:搜索加密参数 queryId 第三部:找到js核心加密代码第四部:代码实现window = {}function utf8ToBase64(t) { console.log(t) aa = window.btoa(unescape(encodeURIComponen...
python 实现 AES ECB模式加解密 AES ECB模式加解密使用cryptopp完成AES的ECB模式进行加解密。AES加密数据块分组长度必须为128比特,密钥长度可以是128比特、192比特、256比特中的任意一个。(8比特 == 1字节)在CBC、CFB、OFB、CTR模式下除了密钥外,还需要一个初始化向IV。(ECB模式不用IV)代码: # -*- coding=utf-8-*-f...
计算机 KB,MB,GB,TB,PB,EB 计算 ASCII码:一个英文字母(不分大小写)占一个字节的空间。一个二进制数字序列,在计算机中作为一个数字单元,一般为8位二进制数。换算为十进制,最小值-128,最大值127。如一个ASCII码就是一个字节。UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个...
rsa 解密过程 直接扣js代码 $w = {};if (typeof $w.RSAUtils === 'undefined') var RSAUtils = $w.RSAUtils = {};var biRadixBase = 2;var biRadixBits = 16;var bitsPerDigit = biRadixBits;var biRadix = 1 &l...
python 验证码识别示例(四) 简单验证码识别 今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wsxf.mca.gov.cn/zfp/Random.cmd?d=1565452532947需要识别的验证码是:识别结果是:识别率百分之八十。10个有两个错误。识别代码:#coding:u...
python 验证码识别示例(五) 简单验证码识别 今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:http://wscx.gjxfj.gov.cn/zfp/webroot/xfsxcx.html需要识别的验证码是:因为这个验证码有干扰点,所以直接识别的效果非常不好。首先对验证码进行二值化和降噪。效果如下:识别结...
信用中国(广西验证码二值化和降噪) 对于普通的字符型验证码,如果可以分割,那么降噪和二值化以后,就很容易识别了。这篇博客主演是对验证码进行降噪和二值化。下面的图片是处理前的验证码和处理后的验证码截图:下面是登录的验证码: 下面是验证码处理前后的对比 降噪代码不再附加转载于:https://www...
python 验证码识别示例(三) 简单验证码识别 今天介绍一个简单验证的识别。主要是标准的格式,没有扭曲和变现。就用pytesseract 去识别一下。验证码地址:https://user.www.gov.cn/sso/verifyimg_edit?rd=0.22469390770687414需要识别的验证码是:识别结果是:识别代码是:#coding:utf-8from c...
unicode转换为中文 unicode转换为中文\u5f53\u5730\u65f6\u95f42019\u5e747\u670813\u65e5\uff0c\u82f1\u56fd\u8d1d\u5fb7\u798f\u7279\u90e1\u74e6\u827e\u6ce2\u65af\u987f\uff0c\u82f1\u56fd\u9996\u76f8\u70ed\u95e8\u5019\u90...
烦人的警告 Deprecated: convertStrings was not specified when starting the JVM python 调用java代码: Deprecated: convertStrings was not specified when starting the JVM. The defaultbehavior in JPype will be False starting in JPype 0.8. The recommended settingfor new co...
人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)... 人不成熟的五大特征:立即要回报、不自律、经常被情绪所左右、不愿学习、做事情不靠信念靠人言(你中了几条?)转载自:管理晨读原文链接:https://mp.weixin.qq.com/s/qYIiYZy3S73bqONy08dsSg作者|张瑞敏来源|人民日报这个社会有很多的成年人,还没有脱离幼稚的行为,一点小事情就跟别人争来争去。1 人不成熟的...
使用 xpath helper 提取网页链接 需求是这样的,公司某个部门不会爬虫,不懂任何技术性的东西,但是希望去提取网页的一个分享链接,老大要求去开发谷歌浏览器插件,但一时半会也搞不定这个啊,想到用xpath helper 作为一个临时的替补方案;第一步:下载 安装 谷歌xpath helper 这个插件 chrome插件XPath Helper的下载与安装 参考教程https://blo...
Python 爬虫js加密破解(四) 360云盘登录password加密 登录链接:https://yunpan.360.cn/mindex/login这是一个md5 加密算法,直接使用 md5加密即可实现本文讲解的是如何抠出js,运行代码第一部:抓包如图 第二步:调试,打断点; 第三步:找到js,扣出来; 第四部:运行js文件; ...
Python 爬虫js加密破解(三) 百度翻译 sign 第一步: 模拟抓包分析加密参数 第二步: 找到加密字段 调试出来的sign和抓取得到的数据一致,都是275626.55195第三部: 分析js加密方法 第四部:运行js代码;...
Python 获得最近一个月的每天的日期 直接上代码:#coding:utf-8# from common.contest import *import datetimeimport timebegin_date = (datetime.datetime.now() - datetime.timedelta(days =30)).strftime("%Y-%m-%d")date_list = ...
VNC Viewer 设置屏幕分辨率 1.第一种方法:使用geometry参数进行调整vncserver -geometry 1280x1024即可,之后通过window下vnc连接后的ubuntu分辨率即为1280x1024了,注意这里的X是小写的x而不是*2.第二种方法:修改配置文件vncservers[root@secdb ~]# vi /etc/sysconfig/vncservers# Th...
单表40G,不要吃惊,还能往里面插入数据,哈哈 单表40G,不要吃惊,还能往里面插入数据,哈哈上图:转载于:https://www.cnblogs.com/xuchunlin/p/10676935.html
谁是谁的谁多 (function() { $("a").on("click contextmenu", function() { var b = Math.floor(100 * Math.random()) + 1, a = this.href.indexOf("url="), c = this.href.indexOf(...
ip代理优化 如何保证可用ip不低于2000个,代理ip池优化策略第一:获得大量ip;第二:验证可用ip;第三:监控可用ip;第三:保证可用ip不低于3000或者5000;截图是实时可用ip数量心得:不要用什么 VPS虚拟主机拨号 或者ADSL拨号代理,好好地优化ip池,会有足够的 ip 够我们使用的。转载于:https://www.cnbl...
爬虫破解js加密破解(二) 有道词典js加密参数 sign破解 在爬虫过程中,经常给服务器造成压力(比如耗尽CPU,内存,带宽等),为了减少不必要的访问(比如爬虫),网页开发者就发明了反爬虫技术。 常见的反爬虫技术有封ip,user_agent,字体库,js加密,验证码(字符验证码,滑动验证码,点触式验证码等)。所谓魔高一尺道高一丈。有反爬虫,就有反反爬虫技术。本文重要讲js加密的破解方法。js加密一般是在请求头或者请求参数加入加...
MYSQL单表可以存储多少条数据??? MYSQL单表可以存储多少条数据???单表存储四千万条数据,说MySQL不行的自己打脸吧。多说一句话,对于爬虫来说,任何数据库,仅仅是存储数据的地方,最关心的是 能否存储数据和存储多少数据以及存储数据的速度而已。至于后期的处理需要查询,完全可以用ES或者其他的数据库。转载于:https://www.cnblogs.com/xuchunlin/p...
搜狗微信 为了保护你的网络安全,请输入验证码 我的网络安全需要搜狗微信的验证码保护吗?真他妈的扯淡。破解方法:不停更换snuid转载于:https://www.cnblogs.com/xuchunlin/p/10374236.html
进程,线程,协程的区别 进程不共享任何状态调度由操作系统完成有独立的内存空间(上下文切换的时候需要保存栈、cpu寄存器、虚拟内存、以及打开的相关句柄等信息,开销大)通讯主要通过信号传递的方式来实现(实现方式有多种,信号量、管道、事件等,通讯都需要过内核,效率低)线程共享变量(解决了通讯麻烦的问题,但是对于变量的访问需要加锁)调度...
ES 安装 head安装 https://www.elastic.co/downloads/elasticsearchhttp://www.cnblogs.com/xuxy03/p/6039999.htmlhttps://blog.csdn.net/camelcanoe/article/details/79528265转载于:https://www.cnblogs.com/xuchunli...
淘宝频繁访问会出现滑动验证码 频繁的访问淘宝一个链接,然后抛出来一个滑动验证码,测试后发现淘宝发现某个ip请求频繁,就跑出验证码。解决办法是ip池转载于:https://www.cnblogs.com/xuchunlin/p/10194919.html...
人的一生会遇到什么样的痛苦???? 最近发生了一些事情,感觉自己走到了人生的巅峰,但是又发生了一些事情,使人生坠入了低谷,我突然想起来一句话,人的一生经得起什么样的磨难,就能取得什么样的成就,我从小到大吃过了太多的苦,作过很多难,吃过无数次亏,他们都没有打倒我,每次从新站起来了。这次一定打不倒我,不出半年我还会站起来的,加油。 ----人的一生经得起什么样的磨难,就能取得什么样的成...
百度 资讯 爬虫解决方案 前言:本文介绍的是基于关键词搜索实现百度资讯的爬虫解决办法第一步:关键词搜索 1. 我们要找到适合自己的关键词,注意关键词决定着我们能否搜索到优质的数据,所以找到足够多的关键词,优质的关键词,能让我们采集更多的数据。 2.搜索按照时间大小排序,在第一页解析出来 新闻标题,新闻来源,新闻发布时间,新闻简单描述,新闻url链接。 ...
爬虫 需要什么样的 CPU,内存 和带宽 所有的需求都看这个图片吧,这个就是我爬取一个网站所用的服务器和服务器资源的消耗情况。转载于:https://www.cnblogs.com/xuchunlin/p/10058412.html...
python gb2312 转换为 utf-8 url = "" headers = { "Host":"www.chinanews.com", "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Saf...
TypeError: sequence item 0: expected string, Tag found 原始代码:soup = BeautifulSoup(result, 'html.parser')content_list = soup.find_all('p', attrs={"class": "art_p"})content = '<br/>'.join(content_list)报错内容是:Traceback (most recen...
MySQL (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' ... (1366, "Incorrect string value: '\\xF0\\x9F\\x8E\\xAC\\xE5\\x89...' for column 'description' at row 1")针对MySQL的这个错误,修改方法是set names utf8mb4;SET CHARACTER SET utf8mb4;SET character_se...
MySQL 数据的 截取,数据清洗 Mysql字符串截取函数SUBSTRING的用法说明函数: 1、从左开始截取字符串 left(str, length) 说明:left(被截取字段,截取长度) 例:select left(content,200) as abstract from my_content_t 2、从右开始截取字符串 right(str, length) 说明:right(...
微博爬虫 ----- 微博发布时间清洗 from datetime import datetimefrom datetime import timedeltaif "刚刚" in publish_time: publish_time = datetime.now().strftime('%Y-%m-%d %H:%M')elif "分钟" in publish_time: ...
ReferenceError: weakly-referenced object no longer exists Python kafka Python存入kafka报错,ReferenceError: weakly-referenced object no longer exists。Exception in thread 14: pykafka.OwnedBroker.queue_reader for broker 101:Traceback (most recent call last): File ...
爬虫工程师最牛逼的地方是什么??? 爬虫工程师最牛逼的地方是什么???爬虫工程师最牛逼的地方是什么???爬虫工程师最牛逼的地方是什么???今天突然想到了这个问题,是因为解决工作的时候,突然想到了这个问题,我的答案是:爬虫不在乎你每天爬取多少数据,不在乎你爬取多少网站,而是自己写的代码,运行错误的时候能随时的去改正这个错误,我认为这个是牛逼的地方。有人会说了,做web网站的时候,也会遇到错误,...
爬虫 解决302 问题 一:问题描述: 爬虫微博信息,出现302跳转, 比如访问的URL是:https://weibo.com/2113535642?refer_flag=1001030103_ (图片中标记为1) 然后跳转的URL是:https://weibo.com/sgccjsdl?refer_flag=1001030103_&is_hot=1(图片中标记为2...
Python 字符串过滤 需求:str1 = """"<div class="m_wrap clearfix"><ul class="clearfix"><br/><br/><br/><br/><br/><br/><br/><br/><br/><br/><b...
python 验证码识别示例(二) 复杂验证码识别 在这篇博文中手把手教你如何去分割验证,然后进行识别。一:下载验证码 验证码分析,图片上有折线,验证码有数字,有英文字母大小写,分类的时候需要更多的样本,验证码的字母是彩色的,图片上有雪花等噪点,因此识别改验证码难度较大二:二值化和降噪: 三: 切割: 四:分类: 五: 测试识...
python 验证码识别示例(一) 某个网站验证码识别 某个招聘网站的验证码识别,过程如下一: 原始验证码:二: 首先对验证码进行分析,该验证码的数字颜色有变化,这个就是识别这个验证码遇到的比较难的问题,解决方法是使用PIL 中的getpixel 方法进行变色处理,统一把非黑色的像素点变成黑色 变色后的图片三: 通过观察,发现该验证码有折...
爬虫 大规模数据 采集心得和示例 本篇主要介绍网站数据非常大的采集心得1. 什么样的数据才能称为数据量大: 我觉得这个可能会因为每个人的理解不太一样,给出的定义 也不相同。我认为定义一个采集网站的数据大小,不仅仅要看这个网站包括的数据量的大小,还应该包括这个网址的采集难度,采集网站的服务器承受能力,采集人员所调配的网络带宽和计算机硬件资源等。这里我姑且把一个网站超过一千万个URL链接的叫做数据量大的网站。...
爬虫 修改 下拉框 爬取某个网站,可以通过修改下拉框来实现数据批量加载上图我们可以看到 view 下面的下拉框 的值是25 ,50 ,100 ,200。我们把200的值修改为5200,然后提交页面然后直接出来所有的数据,不在需要做翻页:爽不爽啊,请求的时候注意把cookie复制到请求头里面,有些网站是通过cookie控制翻页的转载于:h...
Python 爬虫实例(15) 爬取 百度百聘(微信公众号) 今天闲的无聊,爬取了一个网站,百度百聘,仅供学习参考直接上代码:#-*-coding:utf-8-*-from common.contest import *def spider(): headers = { "Host":"zhaopin.baidu.com", "Connection":"keep-aliv...
验证码识别之图像切割算法(三) 连通域分割 切割前: 切割后: 代码:#-*-coding:utf-8-*-from PIL import Imageimport queuedef cfs(img): """传入二值化后的图片进行连通域分割""" pixdata = img.load() w, h = img.size vi...
验证码识别之图像切割算法(二) 备注(易拍全球)切割前: 切割后: 切割前: 切割后: 好了,上代码:#-*-coding:utf-8-*-from PIL import Imagedef smartSliceImg(img, outDir...
验证码识别之图像切割算法(一) 原来验证码:切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 切割前: 切割后: 直接上代码:#-*-coding:utf-8-*-from PIL import Im...
验证码识别 图像降噪 算法 Python (二) 处理器图像:处理后图像:代码:from PIL import Imageimage = Image.open('4.jpg')image = image.convert('L')image.show()import numpy as npimage = np.asarray(image)image = (image >...
验证码识别一般思路 在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮度很高的图像2)平均值法:命R、G、B的值等于三者的平均值,即R=G=B=avg(...
验证码识别 图像降噪 Python (一) 原始图片:降噪后的图片实现代码:# coding:utf-8import sys, osfrom PIL import Image, ImageDraw# 二值数组t2val = {}def twoValue(image, G): for y in xrange(0, image.size[1...
爬虫对自己服务器 CPU,内存和网速的影响 今天无事写一遍关于爬虫对计算机的影响,主要是给小白同学普及一下爬虫的基础知识。 在我们写爬虫的时候,首先会想到开多线程,如果使用的语言是Python,很不幸,因为Python存在 GIL,在任何时候,CPU内只有一条线程在运行,但是Python的多线程也能提高爬虫的速度,并且我们用python的多线程去写爬虫的时候,速度并不慢,这是为何呢?因为爬虫是偏向于io的,网络IO和磁盘i...
怎样将包含元组的列表转换为字典? 原始数据 [('firstid', '1'), ('language', 'g'), ('lastid', '199'), ('sale', '759'), ('saledate', '16. Mai 2018'), ('section', 'Moderne Kunst'), ('action', 'Browse')]转换结果是:{'language': '[1,g]', ...
selenium 实现网页截图 使用webdriver提供的save_screenshot方法:from selenium import webdriverdriver = webdriver.Chrome()driver.get('https://www.duba.com/?f=liebaont')driver.save_screenshot('D:/111.PNG')driver.q...
爬虫遇到的坑——发现你是爬虫抛出假数据 在爬取国外的某个网站的时候,刚开始他们是封ip,优化好ip池,准备大展身手的时候,数据顺利的爬取完毕后,发现数据有重复的。然后研究了一下,最后的原因是他们的后台发现是爬虫以后,直接给抛出假的数据。上证据:解决办法:每个ip的访问次数尽量的少,尽量用多的ip抓取,抓取速度尽量的慢一些。转载于:https://w...
Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商) 有人给我吹牛逼,说汽车之家反爬很厉害,我不服气,所以就爬取了一下这个网址。本片博客的目的是重点的分析定向爬虫的过程,希望读者能学会爬虫的分析流程。一:爬虫的目标:打开汽车之家的链接:https://www.autohome.com.cn/beijing/,出现如下页面我们的目标是 点击找车,然后出现如下图 我们要把图中的信息抓取...
Python 爬虫实例(14) 爬取 百度音乐 #-*-coding:utf-8-*-from common.contest import *import urllibdef spider(): song_types = ['新歌','热歌','中国好声音','经典老歌','电视剧','广场舞','欧美','轻音乐','DJ 舞曲','80后','网络歌曲','劲爆','儿歌','纯音乐','粤语','民...
取一个字符串的所有靠近前面的大写字母 比如有这样的字符串TWO INDUSTRIAL STYLE WALL LIGHTS also a ceramic figure of a cobbler and a group of minor pictures 希望得到的是: TWO INDUSTRIAL STYLE WALL LIGHTS 直接上代码aa = "NINE CARAT GOLD GAR...
爬虫 配置文件 # coding:utf-8import random, reimport json, timeimport uuidfrom bs4 import BeautifulSoupimport threadingimport requestsimport MySQLdbfrom lxml import etreefrom selenium import...
Python 爬虫实例(13) 下载 m3u8 格式视频 Python requests 下载 m3u8 格式 视频最近爬取一个视频网站,遇到 m3u8 格式的视频需要下载。抓包分析,视频文件是多个 ts 文件,什么是 ts文件,请去百度吧:附图:抓包分析过程直接把 ts文件请求下来,然后合并 ts文件,如果想把 ts文件转换 MP4 格式,请自行百度吧。完整下载代码:#cod...
爬虫过程中的 数据插入 问题及其解决方案 在爬虫的过程过,我们有时候往往是开多线程或者多进程或者是协程,有时间下载速度能达到2兆左右的数据,如果和这些数据插入到数据库中,使我们必须解决的问题:目前去搞个数据库集群或者其他的对硬件的方案,可能是大公司无所谓,小公司未必能通过老板那一关。我想说的是通过代码去解决数据插入的问题,主要简单的介绍两种方案第一种方案:批量插入: 因为爬取的数据量很大,我们的服务器一分钟能...
MySQL 两个数据库表中合并数据 两个数据库表中合并数据如果有 t1 和 t2 两个数据库表格,它们两个对应的字段是相同的。如何将 t2 的数据插入到t1中去呢?insert into t1 select * from t2INSERT INTO domestic_auction_artron_2018_detail_info_1_4_all SELECT *FROM domestic...
HTTP 请求头 详解 转载:https://kb.cnblogs.com/page/92320/HTTP(HyperTextTransferProtocol)即超文本传输协议,目前网页传输的的通用协议。HTTP协议采用了请求/响应模型,浏览器或其他客户端发出请求,服务器给与响应。就整个网络资源传输而言,包括message-header和message-body两部分。首先传递message-hea...
爬虫的本质是什么? 来源于:http://www.sohu.com/a/168371748_714863很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。分布式爬虫只...
使用 MD5 加密 去重对插入的影响 现在有3000条数据,需要插入到数据库中去,使用的是对链接进行MD5加密,hashcode = md5(str(item_url))然后在数据库中设置 hashcode 为UNIQUE索引3000条数据全部插入完毕,耗时是32s不使用MD5加密,耗时30秒。结论:去重对时间影响不大转载于:https://www.cnblogs.com/xuchunlin/p/8616604.ht...
Python 爬虫 使用正则去掉不想要的网页元素 在做爬虫的时候,我们总是不想去看到网页的注释,或者是网页的一些其他元素,有没有好的办法去掉他们呢?例如:下面的问题第一种情况<ahref="http://artso.artron.net/auction/search_auction.php?keyword=%E6%9E%97%E7%BB%8D%E5%91%A8"target="_blank">林绍周(明)<...
Python 图像下载解决图像损坏 在下载图片的过程中,经常会发现图片损坏,下面提供了两种解决方法:方法一: if response.status_code == 200: print '==================================================' if not os.path.exists(dir_path): ...
Python 爬虫 解决escape问题 爬取某个国外的网址,遇到的编码问题 ,在前段页面 返回的数据是 亞洲私人珍藏賣,令仝好分享...
python 爬虫 重复下载 二次请求 在写爬虫的时候,难免会遇到报错,比如 4XX ,5XX,有些可能是网络的原因,或者一些其他的原因,这个时候我们希望程序去做第二次下载,有一种很low的解决方案,比如是用 try except try: -------except: try: -------- except: try: ...
TCP协议的三次握手四次挥手 IP协议、HTTP协议、TCP协议、TCP/IP 协议我们经常遇到,而且初学的时候容易弄混。那么他们之间有什么关系呢?重点内容1、什么是TCP/IP 协议TCP/IP不是一个协议,而是一个协议族的统称。里面包括IP协议、HTTP协议、TCP协议等。而三次握手四次挥手就发生在TCP协议中。TCP/IP协议栈主要分为四层:应用层、传输层、网络层、数据链路层。每层都有相应的协议,具...
mysql 大数据提取 今天要重五百多万的一个数据库表 提取 大约五十万条数据,刚开始的解决思路是: 先把数据查询出来,然后再导出来,然后再设计一个数据库表格,把这些数据导入,最后导出数据和导入数据花费了很多时间,最后向同事请教一下,一个SQL 命令解决了这个问题create table t1 select * from t2 where ***解决程序运行了500s就完成了任务...
Python 爬虫实例(12)—— python selenium 爬虫 # coding:utf-8from common.contest import *def spider(): url = "http://www.salamoyua.com/es/subasta.aspx?origen=subastas&subasta=79" chromedriver = 'C:/Users/xuchunlin/AppData...
Python 爬虫实例(11)—— 爬虫 苏宁易购 # coding:utf-8import jsonimport redisimport timeimport requestssession = requests.session()import logging.handlersimport pickleimport sysimport reimport datetimefrom bs4...
Python 爬虫实例(10)—— 四行代码实现刷 博客园 阅读数量 代码很少,自己去体会from selenium import webdreverdriver = webdrever.Chrome()url = "http://www.cnblogs.com/xuchunlin/p/5448655.html"driver.get(url)代码不能运行,仅供参考。转载于:https://www.cn...
Python 爬虫实例(9)—— 搜索 爬取 淘宝 # coding:utf-8import jsonimport redisimport timeimport requestssession = requests.session()import logging.handlersimport pickleimport sysimport reimport datetimefrom bs4...
Python MySQLdb 批量插入 封装 def insert_data_many(dbName,list_data_dict): try: # 得到列表的第一个字典集合 data_dict = list_data_dict[0] # 得到(s%,s%,s%,s%) data_values = "(" + "%s," * (len(data_d...
Python MySQLdb insert(插入) 封装 def insert_data(dbName,data_dict): try: data_values = "(" + "%s," * (len(data_dict)) + ")" data_values = data_values.replace(',)', ')') dbField = data_dict...
Python MySQLdb select(选择) 封装 对MySQL选择的封装def select_data(sql): conn = MySQLdb.connect(host="10.10.10.77", user="xxxxx", passwd="xxxx", db="xxxx", charset="utf8") cursor = conn.cursor(cursorclass=MySQLdb.cursors....
Python 爬虫实例(8)—— 爬取 动态页面 今天使用python 和selenium爬取动态数据,主要是通过不停的更新页面,实现数据的爬取,要爬取的数据如下图源代码:#-*-coding:utf-8-*-import timefrom selenium import webdriverimport osimport re#引入chromedriver.exechromedrive...
Python 爬虫实例(7)—— 爬取 新浪军事新闻 我们打开新浪新闻,看到页面如下,首先去爬取一级 url,图片中蓝色圆圈部分 第二zh张图片,显示需要分页, 源代码:# coding:utf-8import jsonimport redisimport timeimport requestssession = ...
基于tornado的爬虫并发问题 tornado中的coroutine是python中真正意义上的协程,与python3中的asyncio几乎是完全一样的,而且两者之间的future是可以相互转换的,tornado中有与asyncio相兼容的接口。下面是利用tornado中的coroutine进行并发抓取的代码:HEADERS = {'Accept': 'text/html,application/xht...
User-Agent 信息汇总(拿去就能用) # encoding=utf-8agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1", "Avant Brows...
python中decode和encode的区别 #-*-coding:utf-8import sys'''*首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。decode的作用是将其他编码的字符串转换成unicode编码,如s...
Python 爬虫 不得不说的 清洗 今天就聊聊爬虫的清洗,下载网页只是最简单的一个步骤,最让人头疼的是数据的清洗。为什么要这样说呢,因为爬虫首先是获得数据,清洗是把非结构化的数据转换成结果化的数据,这个时候是最考验人的时候。如果是国内的网站,清洗工作相对比较简单,因为国内的数据不是那么的凌乱,有一定的规则,我们清洗的时候需要写的规则比较少,对于国外的网站,由于老外崇尚自由,在他们的网站中最直接的体现就是一个网站...
爬虫如何解决验证码的问题 今天要聊的就是在爬虫遇到验证码,如何去解决。 1.前言:关于验证码,我觉得是很low逼的技术,但是很多面试官都会问到如何解决验证码,好像是能识别验证的就代表了爬虫工程师的技术很牛逼,相反,爬虫工程师就是菜鸟。我觉得以此来评价爬虫工程师的水平高低,是非常不合理的。 2. 网站为何要用验证码? 网站担心别人暴力破解刷票、论坛灌水、刷页,防止爬虫爬取数据,防止别人利...
Python——验证码识别 Pillow + tesseract-ocr 至于安装教程在这里不再重复说了,可以参考博客,网上有大把的教程https://blog.csdn.net/testcs_dn/article/details/78697730要是别的验证码是如下类型的 Python 代码如下#!/usr/bin/python# -*- coding:utf-8 -*-from P...
Python Tensorflow CNN 识别验证码 Python+Tensorflow的CNN技术快速识别验证码文章来源于:https://www.jianshu.com/p/26ff7b9075a1验证码处理的流程是:验证码分析和处理——tensorflow安装——模型训练——模型预测需要的准备。 1. 安装TensorFlow 2.PIL 3. numpy 4. 用于训练的图片...
Python selenium 滚动条 详解 在我们使用Python + selenium 爬虫的时候,会遇到如下报错,原因是当页面上的元素超过一屏后,想操作屏幕下方的元素,是不能直接定位到,会报元素不可见的。 selenium.common.exceptions.WebDriverException: Message: unknown error: Element is not clickable at po...
正则和xpath在网页中匹配字段的效率比较 1. 测试页面是https://www.hao123.com/,这个是百度的导航2. 为了避免网络请求带来的差异,我们把网页下载下来,命名为html,不粘贴其代码。3.测试办法: 我们在页面中找到 百度新闻 关键字的链接,为了能更好的对比,使程序运行10000次,比较时间差异: 1.正则编码及其时间 start_time...
Python 爬虫 数据清洗 去掉 超链接 有时候我们需要清洗数据,里面有超链接,怎么去掉他们,比如下面的问题<divclass="lot-page-details"><ulclass="info-list"><liclass="lot-info-item"><p><strongclass="section-header">Provenance</s...
Python 爬虫 大量数据清洗 ---- sql语句优化 1. 问题描述 在做爬虫的时候,数据量很大,大约有五百百万条数据,假设有个字段是conmany_name(拍卖公司名称),我们现在需要从五百万条数据里面查找出来五十家拍卖公司, 并且要求字段 time(时间) 大于7月一号,小于10月31号。2. 问题解决 我们首先想到的解决办法是添加索引,对拍卖公司字段添加索引,但是因为日期是大于7月1...
Python 运行效率为何低 当我们提到一门编程语言的效率时:通常有两层意思,第一是开发效率,这是对程序员而言,完成编码所需要的时间;另一个是运行效率,这是对计算机而言,完成计算任务所需要的时间。编码效率和运行效率往往是鱼与熊掌的关系,是很难同时兼顾的。不同的语言会有不同的侧重,python语言毫无疑问更在乎编码效率,life is short,we use python。虽然使用python的编程人员都应...