自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

转载 使用windows api函数捕获SAP session的左下角消息句柄

  背景:SAP session的左下角消息非常有用,我们在做SAP的自动化脚本时可以设法读到这个消息的内容,作为程序后续动作的判断条件。如下图:   比如小爬之前给财务的同事制作了一个批量导出SAP各类报表的脚本工具:基于公司IT团队用ABAP编写的这几张表,SAP每次执行完导表动作,数据传输过程,左下角消息为“Transferring package1 of 1.....

2019-08-15 11:05:00 1059

转载 python tkinter动态追加按钮等控件可能遇到的问题

  小爬最近给同事制作一个小爬虫:具体要求:1、每天自动定时触发;2、模拟用户自动登陆;3、自动爬取对应API接口数据;4、对爬取结果进行逻辑判断,对符合条件的数据进行规则化列示;5、列示的行项目支持超链接,如果用用户已经通过浏览器登陆过,该超链接需要能支持单击后在浏览器内新建选项卡并直接进入对应的表单,无需再次登陆。  小爬思考了下:整个程序的功能实现中,...

2019-07-20 22:51:00 1155

转载 使用Python完成SAP客户端的打开和系统登陆

  最近小爬一直思忖着如何将以前写的一些半自动化程序转为全自动化,这其中就涉及到SAP的打开和登录过程。我们都知道,SAP原生的“脚本录制和回放”功能是在用户进入到某一个SAP”用户指定系统“后才可以启用:  也就是说,从这里开始,您可以通过脚本录制,生成用户名、密码的输入和SAP登录过程的完整代码;那么我们的重点就转到了,如何通过Python完成SAP应用程序的打开并进入特定的...

2019-07-08 15:24:00 2292

转载 pyinstaller打包py脚本Warning:lib not found等相关问题

  小爬从使用Pyinstaller打包py为exe文件以来,一直都会碰到Warning:lib not found等相关问题,诸如:  虽然大多数时候,您像我一样忽略这些warning,打包后的exe也能运行。网上有一堆的方法,有建议装win7的,也有建议换32位python文件的,有提示下载2G大小的相关SDK的。总之,就是pyinstaller对目前的win10支持不够友好...

2019-05-23 15:54:00 1507

转载 利用pandas、Ipython来简化数据分析过程

  最近小爬我为了提升数据分析这块儿的技能,学习了pandas库作者Wes Mckinney的数据分析经典书籍《利用Python进行数据分析》,受益良多!里面涉及到Python语言基础、还有编程利器Ipython、Jupyter notebook的使用小技巧,数组分析工具Numpy以及pandas的基础入门和深入知识,甚至还包含绘图与可视化的相关知识。在学习过程中,小爬深刻感受到:工欲善...

2019-05-21 15:35:00 160

转载 python多进程multiprocessing模块中Queue的妙用

  最近的部门RPA项目中,小爬为了提升爬虫性能,使用了Python中的多进程(multiprocessing)技术,里面需要用到进程锁Lock,用到进程池Pool,同时利用map方法一次构造多个process。Multiprocessing的使用确实能显著提升爬虫速度,不过程序交由用户使用时,缺乏一个好的GUI窗口来显示爬虫进度。之前的文章中使用了Chrome浏览器来渲染js脚本生成了...

2019-04-28 12:04:00 926

转载 初识python爬虫框架Scrapy

  Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速、简单、可扩展的方式从网站提取所需的数据。  我们一开始上手爬虫的时候,接触的是urllib、requests抑或是Selenium这样的库,这些库都有非常好的易用性,上手很快,几行代码就能实现网页的批量爬取。但是当我们的爬虫越来越大、越来越复杂时,这个时候,框架式的爬虫...

2019-03-04 16:21:00 339

转载 python多进程web爬虫-提升性能利器

背景介绍:  小爬我最近给部门开发了一系列OA的爬虫工具,从selenium前端模拟进化到纯requests后台post请求爬取,效率逐步提升。刚开始能维持在0.5秒/笔。可惜当数据超过2000笔后,爬取速度逐渐变慢,最终稳定在1-1.2秒/笔。(此处有较大的坑,原则上在万行数据这个量级上,速度不应该有肉眼可见的衰减幅度的,后期再来填坑)这个速度,我们部门领导表示“满意”。但是我个人...

2019-01-30 21:12:00 224

转载 Post请求data参数构造及巧用js脚本显示爬虫进度

  小爬最近随着对python中字符串、json等理解进一步加深,发现先前我随笔中提到的data构造和传参方法略复杂,原本有更简单的方法,Mark如下。先前小爬我使用的requests.post请求中data构造的代码如下:data_search={ 'page':1, 'rows':15, 'condition': """[\ ...

2019-01-12 17:50:00 1212

转载 Javascript动态生成的页面信息爬取和openpyxl包FAQ小记

  最近,笔者在使用Requests模拟浏览器发送Post请求时,发现程序返回的html与浏览器F12观察到的略有不同,经过观察返回的response.text,cookies确认有效,因为我们可以看到返回的登陆信息。然而部分字段的值依然显示为空。下图是浏览器F12抓包看到的界面:由于笔者在查看第一个接口请求时,观察浏览器捕获到的Response(html文件)跟页面展示的信...

2018-12-13 15:53:00 178

转载 python利用requests库模拟post请求时json的使用

  我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和post请求,他们最大的区别在于安全性上:1、GET是通过URL方式请求,可以直接看到,明文传输。2、POST是通过请求header请求,可以开发者工具或者抓包可以看到,同样也是明文的。 3.GET请求会保存在浏览器历史纪录中,还可能会保存在Web的日志中。  两者用法上也有显著差异(...

2018-12-06 21:50:00 851

转载 Python selenium巧用Javascript脚本注入解决按钮点选问题

  前段时间,笔者忙于应付公司组织的雅思考试,白天、晚上但凡有空,笔者都是埋头伏案,啃剑桥雅思(剑4~剑12)的官方模拟题或者做着与雅思考试相关的准备工作,这个过程持续了40余天。最近总算鼓起勇气走进考场,跟那些尚未毕业、怀揣出国梦想的小年轻同场竞争,虽然结果还未出来,但是至少短时间不用再高强度复习英语了,笔者工作重心得以回归到Python +Selenium的自动化中。  言归正传...

2018-11-12 23:07:00 422

转载 Python selenium中注入并执行Javascript语句

  众所周知,Python通常结合selenium模块来完成一些web的自动化测试以及RPA(Robotic Process Automation)工作。事实上,Selenium还可以支持插入js语句、执行js语句、返回js语句的执行结果到python程序中。这对于那些已经习惯了Javascript语法的程序员们,简直是一大神器。  举个简单的例子,我们用selenium原生的方法对...

2018-09-17 22:29:00 1278

转载 Python selenium根据class定位页面元素

  在日常的网页源码中,我们基于元素的id去定位是最万无一失的,id在单个页面中是不会重复的。但是实际工作中,很多前端开发人员并未给每个元素都编写id属性。通常一段html代码如下:1 <div class="sui-tips s-isindex-wrap sui-tips-exceedtipnews" style="display: none; width: auto;"...

2018-09-06 16:40:00 3386

转载 Python结合SAP GUI Script操作sap的简易教程

  众所周知,如果要用Python做一些桌面WIN32应用的自动化工作,就需要用到著名的pywin32尤其是其中的win32com.client模块,pywin32的安装不能直接通过pip install方法,奉上pywin32的官方github链接:https://github.com/mhammond/pywin32/releases。选择与桌面系统版本、python版本对应的版本安...

2018-08-25 17:08:00 4781

转载 腾讯云主机及CentOS7.2简单上手体验

  前段时间拜读了崔庆才老师的《Python③网络爬虫开发实战》受益良多,对于初学爬虫的新手来说,本书真可谓是通俗易懂,非常适合新手入门。但是受制于没有服务器环境,书中很多例子难以模拟!最近正好赶上腾讯云这边云主机做活动,120元即可享受1年半服务,专属IP,在国内一众云服务厂家里,价格也算良心了。一时兴起买了1年的云主机,系统是CentOS 7.2,配置如下:1 核 2 GB 1 ...

2018-08-19 18:52:00 316

转载 python爬取网易云音乐歌曲评论信息

  网易云音乐是广大网友喜闻乐见的音乐平台,区别于别的音乐平台的最大特点,除了“它比我还懂我的音乐喜好”、“小清新的界面设计”就是它独有的评论区了——————各种故事汇,各种金句频出。我们可以透过歌曲的评论数来判断一个歌者的市场分量和歌曲的流行度。言归正传,如果我们想要简单爬取指定歌曲的评论内容来做词云或者其他相关数据分析,有没有容易上手的好方法呢?  首先,我们打开网易云音...

2018-08-01 19:47:00 479

转载 Python3使用AES加密的库函数PyCrypto、PyCryptodome

  我们在网上查看Python爬虫教程的时候,细心的朋友会发现:很多网站为了降低服务器的请求压力都做了各式各样的反爬策略,浏览器通过http post请求服务器端数据时,传输的data字段很多都是经过加密后的密文,杂乱无章。如12306网站、网易云音乐网页版:类似于下文:  这些网站经常使用AES的加密算法。AES为一种对称性加密算法(高级加密标准(英语:Advanced ...

2018-08-01 14:19:00 1353

转载 杭州云栖小镇之旅

  这周头几天和同事一起去了趟杭州出差,回来也有好几天了,心情还是难以平复,觉得还是应该记录下来当时的一些感受。  我们是个周日早上从武汉出发的,赶上浙江那边起了点台风,我们原订的那趟列车停运,被迫改签了这趟车。高铁上信号差了些,一路上只顾盯着车厢的LED屏看还有几站路,这列车跑了足足5个小时有余才到达杭州东,一路下来,没见速度有超过250Km/H,高铁愣是跑出了动车的感觉。到达杭州...

2018-07-29 18:32:00 228

转载 浅谈腾讯企业邮箱优点之一二三

  说到腾讯邮箱,大家并不陌生,相信每位QQ用户都拥有自己的个人QQ邮箱账户。但是今天我们要说的是腾讯企业邮箱。这一作为腾讯公司面向企业开发的云邮件工具,在商业应用领域又有哪些独到的优势呢,且看我细细道来。一、账户登陆更安全。在输入用户名密码登陆后,还可以开通微信扫码登陆,双重验证,实现更安全的信息管理;二、联系人邮箱地址快速录入。企业IT部门可以将公司联系人配置到后台数据库,用...

2018-07-21 19:12:00 1091

转载 outlook2016用Exchange轻松绑定腾讯企业邮箱

系统版本:Win10 X64 1709 英文版邮箱:Outlook2016背景知识:1、发送邮件均使用SMTP协议(SMTP 全称“Simple Mail Transfer Protocol”,即简单邮件传输协议。);2、POP3/IMAP负责接收邮件。IMAP全称Internet Mail Access Protocol,即交互式邮件存取协议,跟pop协议类似,但IMA...

2018-07-21 16:59:00 2226

转载 Python Pyinstaller打包含pandas库的py文件遇到的坑

  今天的主角依然是pyinstaller打包工具,为了让pyinstaller打包后exe文件不至过大,我们的py脚本文件引用库时尽可能只引用需要的部分,不要引用整个库,多使用“from *** import **,**”语句,如:from openpyxl import load_workbook,Workbookfrom openpyxl.styles import B...

2018-07-12 12:05:00 3190

转载 Python openpyxl、pandas操作Excel方法简介与具体实例

  本篇重点讲解windows系统下 Python3.5中第三方excel操作库-openpyxl;其实Python第三方库有很多可以操作Excel,如:xlrd,xlwt,xlwings甚至注明的数据分析模块Pandas也提供pandas.read_excel、pandas.DataFrame.to_excel功能。那么openpyxl的库有哪些优缺点呢:优势:1...

2018-07-08 12:26:00 1179

转载 Python tesserocr模块使用示例

操作系统:Win10 1709 X64python版本:3.6.5依赖模块:PIL、tesserocr。  需要说明的是,在windows系统上PowerShell通过PIP3 install tesserocr安装验证码识别模块时,需要先安装Tesseract (一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition...

2018-07-01 13:27:00 333

转载 Python3.6安装使用tesserocr文件时遇到问题

  本机运行环境:  Win 10 version 1709;  Python 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 18:11:49) [MSC v.1900 64 bit (AMD64)] on win32  在Windows10下,首先需要下载tesseract,它为tesserocr提供底层支持。具体下载官方路径:https://gi...

2018-06-28 22:27:00 243

转载 Python3.6下使用会话session保持登陆状态

  本次工具主要利用python easygui模块的inputbox让用户首次输入登陆信息,作为网站requests-post请求的data字段,观察XHR(异步加载)的数据包,构造post请求,利用requests库的session功能保持登陆状态,进而请求其他子页下的所需信息,最终爬取到本地excel文件中。我们手工登陆后,网站会进行跳转,通过浏览器F12查看network页签...

2018-06-25 19:38:00 716

转载 VMware下安装Ubuntu18.04时vmware tools安装问题

在VMware下安装Ubuntu18.04时vmware tools关键步骤:1、快捷键Ctrl+Alt+T,启动命令框,然后切换到root用户(切换命令为:sudo su,回车然后会提示你输入当前登录用户的密码,输入成功后即可进入root用户):2、然后我们以root用户进入到刚刚提取到的vmware-tools-distrib文件夹下,然后输入命令:./vmware-inst...

2018-06-18 15:07:00 325

转载 python的py文件命名注意事项

  最近,在学习python爬虫时,用到各种库特性时,写小段代码,命名demo的py文件诸如:requests.py,json.py,csv.py.都会提示类似“module 'csv' has no attribute 'writer'”或者“module 'requests' has no attribute 'get'等,后来发现把这些库的文件夹名字改为”requests1“等,然...

2018-06-15 20:05:00 862

转载 使用Pyinstaller打包python py文件注意事项

首先需要将cmd或者PowerShell目录cd 跳转到py脚本所在目录,然后直接执行 Pyinstaller -F即可完成程序的打包,其中我们关心它有哪些常见参数: 输入参数的含义-F 表示生成单个可执行文件-w 表示去掉控制台窗口,这在GUI界面时非常有用。不过如果是命令行程序的话那就把这个选项删除吧!-p 表示你自己自定义需要加载的...

2018-06-14 09:04:00 1061

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除