python处理考勤数据_你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据就知道了...

本文介绍了如何使用Python爬虫自动化获取考勤数据,通过Selenium模拟登录并保存cookie,然后利用Requests携带cookie进行请求,避免重复登录。解析考勤查询接口,获取指定月份的考勤记录,并存储到SQLite数据库,最后进行了简单数据分析。
摘要由CSDN通过智能技术生成

前段时间给同事做Python爬虫技术分享,为了分享的效果以及听众的兴趣,写了一个爬取考勤数据的小爬虫。内容比较简单,以下做一个梳理:

一、问题分析

先梳理下查询考勤的流程:

登录公司内网的系统

切换到考勤查询页面

根据年份、月份查询对于的考勤数据即可

分析以上流程,主要解决两个核心问题即可:a. 账号登录 b. 找到考勤数据查询的接口

二、解决登录问题

公司的考勤数据、人力系统、会议室等都在同一个系统里面,由于之前已经用Selenium写过抢会议室的脚本,所以登录、验证码等问题算是已经解决了。

但是多想一步,要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的,所以...能不能再优化下呢?

...

当然是有的!

既然可以用Selenium登录,就能得到登录后的cookie。理论上说,只要在cookie的过期时间内都是可以实现免登录的。😄

所以需要实现的工作是:

1、用Selenium模拟登录,登录成功后将cookie保存到本地;

2、抛弃Selenium,用Requests库,带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。

说干就干,以下是获取登录状态cookie的实现代码:

import time, os, json, requests,sqlite3

from selenium import webdriver

from time import sleep

from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数

from requests.cookies import RequestsCookieJar

#用selenium登录系统,保存cookie到本地json文件。

def login_savecookie(user, password):

driver = webdriver.Chrome()

driver.maximize_window()

driver.implicitly_wait(5)

mtHelper = MtHelper(driver)

driver.get('http://****.com')

mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数,最多尝试15次验证码识别

sleep(1)

dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie

json_cookie = json.dumps(dict_cookie)

with open(path + "\cookies.json", "w+") as f:

f.write(json_cookie)

driver.quit()

#读取本地json文件获取cookie,用于requests

def parse_cookie():

jar = RequestsCookieJar()

with open(path + "\cookies.json", "r") as f:

json_cookies = json.load(f)

for cookie in json_cookies:

jar.set(cookie['name'], cookie['value'])

return jar

所以从理论上说,在cookie过期时间以内,只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据,携带它进行request请求即可。这样能大大减少调试、运行的成本。

三、考勤数据查询接口

按照以往的经验,凡是先按F12,观察一下请求的内容再说。

先进入考勤查询系统,调出控制台后,用鼠标点击了一下2018年3月,立马能看到以下请求(没有截图,就手敲了一遍,实际数据做过隐私处理):

#post请求地址:

http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111

#参数:

MONTHCD:2018-3

EMPLID:111111

#返回值(截取部分),Json格式:

"{"code":"success","list_data":

[{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},

{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"

根据以上内容不难推测,要想获取考勤数据,只需找到该post请求的参数规律即可。至于返回值,明显是按照工作日排序的,只需解析该Json即可得到想要的数据。

请求参数分析:

MONTHCD不用说,肯定是指查询考勤的年月份;至于EMPLID,虽然不知道具体是什么,但该变量名明显是类似员工工号的东西,应该是唯一的。再多尝试了几次,果不其然,它是不变的。

搞定!!!

动手来实现它吧:

#获取某月的考勤数据

#month为需要获取的月份,employeeID为员工工号,jar为cookie数据。也就是上例中从json文件中获取的cookie信息

def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):

url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)

print u"正在获取%s的数据!"%month

response = requests.get(url, cookies = jar)

text = response.text

js = json.dumps(text,encoding='utf-8',ensure_ascii=False)

js = json.loads(js)

return js

三、数据存储

前面已经找到查询接口的规律了,所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的,接下来要考虑下数据存储,只有存储为合理的数据结构后才方便后面的数据分析。

数据存储的方式很多,比如针对少量数据可以存为本地Json、txt、Excel等文件,数据量大也可以考虑数据库。

此处的考勤数据不多,不到1000条。为了便于数据的筛选,以及减少环境搭建成本,采用sqlite3存储。

先使用pip install sqlite3命令安装sqlite3库,接下来就是实现:

#保存数据到数据库

#sql格式:"insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)

def save_to_db(sql):

conn = sqlite3.connect(path + '\db\clockData.db')

cursor = conn.cursor()

cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')

cursor.execute(sql)

cursor.close()

conn.commit()

conn.close()

至此,将以上部分串联起来,就能爬取考勤数据了!

下面就看看爬取的成果:

爬取下来的考勤数据

四、数据分析

当然,数据分析这个范畴实在是太大了,在此只做个简单的数据统计(常用的sql查询命令),用于娱乐😜,顺便模仿一波网易云的情怀文案:

考勤数据分析

不说了,我要找老板加薪去!😭😭😭

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值