用python做成绩分析做表格_在Gnumeric下使用Python脚本操作表格的教程

关于Gnumeric

Gnumeric是linux平台下的一款功能强大且易于使用的电子表格软件,与其他常用电子表格软件如Excel等在风格上非常一致。Gnumeric当前的稳定版是1.2.13,对中文的支持已经比较成熟。据官方信息,Gnumeric除实现了MS Excel所有的函数外,还实现了60多个Excel中不存在的函数和基本的金融方面函数,并已经具备了高级统计分析、可扩展的随机数产生器、线性或非线性求解的计算能力。更令人惊喜的是,现在Gnumeric已经集成了Python强大的脚本编程能力,Python用户可以为Gnumeric实现更为复杂的计算功能。

何谓Python

Python是一种解释性的,面向对象的,具有动态语义的程序设计语言。Python代码具有优秀的可读性,具有模块和包的概念,支持各种主流平台,并具有很好的跨平台能力。Python已广泛用于文本处理、互联网编程、数据库编程、系统管理等领域 。同时Python又是一种成功的嵌入语言,包装C/C++的代码非常方便,越来越多的重量级应用程序开始支持Python脚本编程,OpenOffice, GIMP, Blender等。

插件初探

任何一个C函数调用或访问一个Python对象都必须遵循这样一个框架:

1. C函数把调用参数转换成Python语言数据类型

2. 利用转换后的参数调用Python函数

3. 返回值转换成C语言类型,并返回给C函数

类似的,从Python函数调用C函数也遵循相似的步骤:

1. Python函数把参数转换成C语言类型

2. 用转换后的参数调用C函数

3. 返回值转换成Python语言类型后返回给Python函数

因此Python函数和C函数相互调用的关键是数据的相互转换问题,这些转换需要相当好的C和Python解释语言开发功底,好在Gnumeric的Python插件已经自动为我们做了数据类型的转换,我们只需关注算法的实现就可以了。

Gnumeric和Python的交互也遵循类似的过程,首先Gnumeric自动转换参数类型,继而调用Python函数,最后再把返回值转换成合适的类型返回给Gnumeric。下面是Gnumeric和Python的常见数据类型对应表:

2015414171408625.gif?2015314171429

对于单元格(Cell),Gnumeric把单元格中的数据直接转换相应的数据类型,传递被调用Python函数,如整数(Integer)、浮点数(Float)、字符串(String);然而对于单元格区域(Range),Gnumeric采取迂回的策略,只是传递一个单元格区域的引用(RangeRef)给被调用Python函数,而Python这时就需要通过Gnumeric接口才能访问和操作单元格区域中的数据。因此,Gnumeric为Python提供了Gnumeric模块,,包括Gnumeric的全部函数和工作薄工作表对象,这里简略地列出了Gnumeric模块中的函数和对象(具体细节请读者参考Gnumeric的py-gnumeric.c源文件位于plugins/python-loader目录)。

2015414171445159.gif?2015314171511

范例分析

通过上面的介绍,我们初步了解了跨语言调用的框架,在此基础上再来分析一下Gnumeric软件包自带的Python插件范例(通常位于/usr/lib/gnumeric//plugins/py-func/)。该范例由plugin.xml、py_func.py两个文件构成,plugin.xml是XML形式的配置文件,供Gnumeric来读取python函数的相关信息;py_func.py包含Python函数的定义和函数原型字典。

首先分析的是py_func.py文件。该文件定义了三个函数:func_printf,func_capwords,func_bitand,功能分别是格式化输出,单词首字母大写,按位求和。我们来比较一下这三个函数:

2015414171543375.gif?201531417162

以func_bitand函数为例,函数接受两个整数,返回值也为整数,C与Python的类型转换是Gnumeric自动完成的,func_bitand只注重算法的实现,具体计算是通过调用Gnumeric的按位求和函数(bitand)完成的;值得一提的是''@''开头的文档字符串是提供给Gnumeric的文档接口,分别提供函数的功能、接口、实例以及引用方面的信息,格式也是固定的,每个域(包括换行符)用单引号括起来并后接"\"。

代码 1 func_bitand函数定义

from Gnumeric import *

def func_bitand(num1, num2):

'@FUNCTION=PY_BITAND\n'\

'@SYNTAX=PY_BITAND (num)\n'\

'@DESCRIPTION=The BITAND function returns bitwise'\

'and-ing of its arguments.'\

'\n'\

'@EXAMPLES=\n'\

'PY_BITAND(6, 2) equals 2)'\

'\n'\

'@SEEALSO=BITAND'

gnm_bitand=functions['bitand'] # Gnumeric的按位求和函数

return gnm_bitand(num1, num2)

py_func.py文件尾处还有一个起特殊作用的字典,向Gnumeric提供Python函数原型信息,姑且称之为函数原型字典。函数原型字典的命名是非常严格的,必须以"_functions"为后缀,"_"前面前面的名字必须与plugin.xml文件保持一致,这样Gnumeric才能发现插件中的各种函数信息,否则Gnumeric就会出现许多函数信息方面的错误,导致插件函数无法使用。函数原型用字典中"key:value"对来表示(代码2), 如func_bitand,key就是在Gnumeric被映射的函数名py_bitand,value是由参数类型、参数名称、函数名称组成的元组。

代码 2 test_functions函数原型字典

test_functions = {

'py_printf': func_printf,

'py_capwords': ('s', 'sentence', func_capwords),

'py_bitand': ('ff', 'num1, num2', func_bitand)

}

在函数原型字典中,参数类型是用特殊的字符来表示的,例如func_bitand的两个浮点数参数表示为"ff"。常见参数类型的字符串表示总结如下:

2015414171707629.gif?2015314171718

另外一个结构简单的XML文件plugins.xml (1) ,是开发者向Gnumeric提供的配置信息。information标签中的name和description标签提供了该插件的名字和描述信息,而且这些信息的国际化也很简单,只需要在有语言标记的相应标签中填写国际化信息即可。loader标签中attribute标签的value属性、service标签中id属性、function标签中的name属性是最重要的,分别对应于Python脚本文件名、脚本中的函数原型字典名(不包括后缀)、函数原型函数的key。对于本例,属性值为py_func,test,py_printf,py_capwords,py_bitand,则对应于插件分别为py_func.py和test_functions,py_printf,py_capwords,py_bitand。这些对应关系一定要一致,否则Gnumeric就会向你抱怨了。

代码 3 py-func.py的plugin.xml配置文件

<?xml version="1.0" encoding="UTF-8"?>

Python functions

Sample Python plugin providing

some (useless) functions.

Python

Python

牛刀小试

根据上面的分析,我们看到用Python编写Gnumeric函数,需要三个步骤:

1. 创建Python函数源文件,如py_func.py。

2. 根据创建的函数构建函数原型字典,如test_functions。

3. 创建plugin.xml配置文件,配置文件名、函数分类、名字、原型字典等相关信息。

为了演示具体的Gnumeric中Python函数创建的过程,笔者编写了一个根据自动标记成绩等级的小函数,由plugin.xml和exam.py两个文件构成。

首先创建脚本文件exam.py,整个文件只有mark和cstr两个函数:mark函数的参数和返回值都是字符串,功能是根据其大小返回成绩的等级;cstr用来把字符串转换成utf-8编码,使Gnumeric能显示中文 (2) 。mark函数中的注释是提供给Gnumeric的函数信息,读者开发时只需要按着模板简单的修改就可以了。

代码 4 exam.py文件

# -*- coding: GB2312 -*-

def mark(score):

'@FUNCTION=MARK_SCORE\n'\

'@SYNTAX=mark_score(score)\n'\

'@DESCRIPTION= determine the level for a score\n'\

'@EXAMPLES= To determine a score in A1: \n'\

' mark_score(a1)\n'\

'@SEEALSO='

level='N/A'

if score < 0:

level = cstr('非法分数')

elif score < 60:

level = cstr('未及格')

elif score < 80:

level = cstr('及格')

elif score < 90:

level = cstr('良')

elif score <= 100:

level = cstr('优秀')

else:

level = cstr('非法分数')

return level

def cstr(str):

""" translate a chinese string into utf-8 string for GTK+

"""

return unicode(str,'gbk').encode('utf8')

exam_functions = {

'mark_score' : ('f','score',mark)

}

下一步就是就是注册函数,exam.py文件尾处的exam_functions函数原型字典向Gnumeric揭示了mark函数的原型信息,字典的键'mark_score'是mark在Gnumeric的名字映射,f表示参数类型为整数,score为参数名。plugin.xml (3) 是根据模板简单的改写的,主要注意的就是上面提到的几个属性,必须和插件对应,否则插件是无效的;另外一些属性,如category也加入了中文信息,以方便使用。

代码 5 exam.py的plugin.xml配置文件

<?xml version="1.0" encoding="UTF-8"?>

Exam functions

Determine rank for exam score

"exam">

Exam

Exam

"mark_score"/>

OK!现在启动Gnumeric (4) ,按图示在A列输入一列成绩,然后在B1单元格内输入公式:'=mark_score(A1)', 然后利用鼠标拖动复制公式的功能,把公式复制到对应的B列,就会发现所有标志在B列中已经自动生成了。

插图1 成绩分类

2015414171815436.png?2015314171857

更进一步

如果只是对单元格数据简单计算的话,那么Python在Gnumeric中充其量是好玩的玩具罢了,但Python插件的功能远不只这些,Python可以控制读写单元格区域(Range)的数据,访问Gnumeric的全部函数,控制工作表的创建等,把这些功能有机地组合起来就能完成复杂的任务了。本节对全班成绩做进一步的处理,利用RPy (5) 的summary函数对所有的分数进行简单的统计,计算最值、均值、中位数和两个四分位数,并把所得计算结果打印到新的工作表中。

要想统计全班成绩,首要的任务就是从Gnumeric获取数据。对于大批量的数据,Gnumeric是用单元格区域(Range)来表示的,然而在调用过程中传递给Python的是单元格区域引用(RangeRef),所以需要对单元格区域引用(RangeRef)做相应的转换以便提取批量数据。不幸的是,Gnumeric的API正处于发展阶段,没有直接的转换方法。为此,笔者利用了Gnumeric自身的函数构建了一个PyGnmRange类。PyGnmRange对象以单元格区域引用(RangeRef)为初始化参数,为该单元格区域中的构建所有单元格的索引,即"_table"属性,同时提供几个方法来方便地访问,这样我们就可以配合Gnumeric模块中的Sheet对象操纵单元格数据了。

代码 6 类PyGnmRange的定义

class PyGnmRange:

def __init__(self, gnm_range_ref):

get_cols = Gnumeric.functions['column']

get_rows = Gnumeric.functions['row']

get_col_num = Gnumeric.functions['columns']

get_row_num = Gnumeric.functions['rows']

cols = get_cols(gnm_range_ref)

rows = get_rows(gnm_range_ref)

# column first table

self._table = []

self._col_num = get_col_num(gnm_range_ref)

self._row_num = get_row_num(gnm_range_ref)

for i in range(self._col_num):

for j in range(self._row_num):

self._table.append((cols[i][j]-1, rows[i][j]-1))

def col_num(self):

return self._col_num

def row_num(self):

return self._row_num

def get_col(self,col):

start = (col-1) * self._row_num

end = col * self._row_num

return self._table[start:end]

def get_row(self,row):

indexes = [(i*self._row_num)+(row-1) for i in range(self._col_num)]

return [self._table[i] for i in indexes]

def __iter__(self):

return iter(self._table)

另外PyGnmRange类定义需要注意两点:

1. 单元格下标采取了列优先的表示方法,从零开始计数,例如B3表示为(1,2),这样同时也是为了与Gnumeric规范保持一致,便于操纵单元格数据。

2. 类初始化函数使用了四个Gnumeric的函数,分别为column、columns、row、rows,其功能如下:

2015414171941058.gif?2015314171958

有了前面的准备,我们就可以具体实现summary函数了。summary函数通过gnm_scores参数获得当前的单元格区域引用,并利用该参数创建PyGnmRange对象,计算所有单元格的下标;又通过Gnumeric模块的workbooks和sheets函数,取得工作表1的对象;从而结合工作表对象和单元格下标来操作单元格数据。而真正的计算R语言完成的,RPy模块则是联接Python和R语言的桥梁 (6) 。最后,summary函数取得R语言计算的结果并通过Gnumeric模块将其打印到一个新建的工作表里。

代码 7 exam.py 中summary函数定义

<?xml version="1.0" encoding="UTF-8"?>

Exam functions

Sample Python plugin providing some (useless) functions.

Exam

Exam

函数编写完之后就是函数注册了,函数原型字典只有一行,唯一需要注意的是,单元格区域引用数据类型需要用"r"来表示。plugin.xml文件也只需要加入下面一行:

代码 8 summay函数的plugin.xml配置文件

<?xml version="1.0" encoding="UTF-8"?>

Exam functions

Sample Python plugin providing some (useless) functions.

Exam

Exam

下面的两张是插件函数的运行效果图,输入数据是随机生成的80个100以内的浮点数,函数插在B1单元格内,由于该函数的目的是生成简单的报表而不是返回值,所以运行结束后B1单元格内依然空白,而所有的数据全部打印在新建的工作表4内(图2和图3)。

插图2 全班成绩和函数的输入

2015414172056240.png?2015314172111

插图3 全班成绩统计报告

2015414172122545.png?2015314172134

插件部署

Gnumeric插件部署及其简单,用户只需要在自己主目录下新建.gnumeric目录,放入插件函数即可,例如exam.py和plugin.xml就是位于 /.gnumeric/ (7) /plugins/exam/,重新启动Gnumeric插件就生效了 (8) 。

结束语

Gnumeric的Python开发过程需要注意一下几个问题:

1. Gumeric的Python插件还处于积极地开发过程中,一些代码很可能在将来的版本中会发生很大的变化;插件提供的Gnumeric模块接口还不是完整,比如缺乏获得活动工作表的函数,编写Python函数时需要仔细地处理。

2. Python函数配置虽然及其简单,但是调试起来不是很方便,经常会出现Gnumeric不能正确获取Python信息的情况,这时候的原因是多方面的,例如plugin.xml文件的名字与脚本文件不一致,函数原型字典命名不规范,函数文档字符串格式错误,脚本文件语法错误等。

尽管这样,对于熟悉Python的编程人员来说,这些并不影响编写Gnumeric函数的趣味,只需小心仔细地处理,这些都不是很难的事。希望本文能起到抛砖引玉的作用,有兴趣的读者可以在此基础上参考Gnumeric源代码中的开发者文档和Python插件的源代码,会发现许多有价值的信息,编写更有价值的应用了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本文介绍的是利用Python语言,成绩分析并生成成绩分析动态图表。Python语言可以利用Pandas、Pyecharts等各种类库,进行数据分析。 本文介绍的成绩分析大体分为三步: 一、拼合单科成绩,合成学年成绩,计算总分,按总分成绩排名次,然后由学年成绩筛选出各个班级的成绩,将学年成绩,各班级成绩存入一个Excel文件中,工作表分别命名为学年成绩,高三(1)班……等 二、利用生成的第一步生成的Excel文件,成绩分析,保存成绩分析表格。 三、利用成绩分析表格成绩分析动态图。 下面是部分源代码: 1、成绩整理与合并 import glob import os import pandas as pd from functools import reduce inputPath="./原始成绩/" writer_lk = pd.ExcelWriter('./整理后的成绩/2020一模理科总成绩及各班级成绩.xlsx') writer_wk = pd.ExcelWriter('./整理后的成绩/2020一模文科总成绩及各班级成绩.xlsx') inputWorkbook=glob.glob(os.path.join(inputPath,"*.xls")) #====================读取全部学生的所有科目成绩=================================== yw_score = pd.read_excel(inputWorkbook[2]) sxlk_score = pd.read_excel(inputWorkbook[1]) sxwk_score = pd.read_excel(inputWorkbook[0]) yy_score = pd.read_excel(inputWorkbook[5]) yy_score['英语'] = (yy_score['英语'] * 1.25).round(0)#英语成绩不计算听力成绩*1.25 lkzh_score = pd.read_excel(inputWorkbook[4]) wkzh_score = pd.read_excel(inputWorkbook[3]) #======================================================================= #====================整理出理科成绩及分班成绩、计算总分、总分排名、班级排名============================= lk_class = ['高三(1)班','高三(2)班','高三(3)班','高三(4)班'] wk_class = ['高三(5)班','高三(6)班'] lk_yw = yw_score.loc[(yw_score.班级.isin(lk_class)), ['班级','姓名','语文']] lk_sx = sxlk_score[['姓名','数学']] lk_yy = yy_score.loc[(yy_score.班级.isin(lk_class)), ['姓名','英语']] lk_k3 = lkzh_score[['姓名','物理','化学','生物','理综']] lk_list = [lk_yw, lk_sx, lk_yy, lk_k3] score_lk = (reduce(lambda left, right: pd.merge(left, right, on='姓名'), lk_list)) score_lk['总分'] = (score_lk['语文'] + score_lk['数学'] + score_lk['英语'] + score_lk['理综']).round(0) def sort_grade(score): score_sort = score.sort_values(by=['总分'], ascending=False) score_sort['年级排名'] = score_sort['总分'].rank(ascending=0,method='min') return score_sort def sort_class_lk(score_garde,name): class_sort = score_garde.loc[score_garde.班级 == name, :] class_sort = class_sort.sort_values(by=['总分'], ascending=False) class_sort['班级排名'] = class_sort['总分'].rank(ascending=0,method='min') class_sort.to_excel(writer_lk, index=None, sheet_name=name) lk_grade_sort = sort_grade(score_lk) lk_grade_sort.to_excel(writer_lk, index=None, sheet_name='学年成绩') for lk in lk_class: class_sort = sort_class_lk(score_lk, lk) writer_lk.save() writer_lk.close() # #============整理出文科成绩及分班成绩、计算总分、总分排名、班级排名================== wk_yw = yw_score.loc[(yw_score.班级.isin(wk_class)), ['班级','姓名','语文']] wk_sx = sxwk_score[['姓名','数学']] wk_yy = yy_score.loc[(yy_score.班级.isin(wk_class)), ['姓名','英语']] wk_k3 = wkzh_score[['姓名','政治','历史','地理','文综']] wk_list = [wk_yw, wk_sx, wk_yy, wk_k3] score_wk = (reduce(lambda left, right: pd.merge(left, right, on='姓名'), wk_list)) score_wk['总分'] = (score_wk['语文'] + score_wk['数学'] + score_wk['英语'] + score_wk['文综']).round(0) def sort_class_wk(score_garde,name): class_sort = score_garde.loc[score_garde.班级 == name, :] class_sort = class_sort.sort_values(by=['总分'], ascending=False) class_sort['班级排名'] = class_sort['总分'].rank(ascending=0,method='min') class_sort.to_excel(writer_wk, index=None, sheet_name=name) wk_grade_sort = sort_grade(score_wk) wk_grade_sort.to_excel(writer_wk, index=None, sheet_name='学年成绩') for wk in wk_class: class_sort = sort_class_wk(wk_grade_sort, wk) writer_wk.save() writer_wk.close() 2、成绩区间分割与统计 #coding:utf-8 import numpy as np import pandas as pd from functools import reduce fpath_lk="./整理后的成绩/2020一模理科总成绩及各班级成绩.xlsx" fpath_wk="./整理后的成绩/2020一模文科总成绩及各班级成绩.xlsx" writer_lk = pd.ExcelWriter('./整理后的成绩/2020一模理科成绩区间分布统计.xlsx') writer_wk = pd.ExcelWriter('./整理后的成绩/2020一模文科成绩区间分布统计.xlsx') lk = pd.read_excel(fpath_lk, None) #获取表格中的所有工作表的内容 wk = pd.read_excel(fpath_wk, None) #===================1.定义区间分割函数===================================== def cut_750(score_750,len): bins_750= [0,370,380,390,400,410,420,430,440,450,460,470,480,490,500,510,520,530,540,550,560,570,580,590,600,620,640,660,750] labels_750 = ['0-370','370-379','380-389','390-399','400-409','410-419','420-429','430-439','440-449','450-459','460-469','470-479','480-489','490-499','500-509','510-519','520-529','530-539','540-549','550-559','560-569','570-579','580-589','590-599','600-619','620-639','640-659','660-750'] cut_750 = pd.cut(score_750, bins_750, labels=labels_750, right=False) qj = pd.DataFrame({'区间':pd.value_counts(cut_750).index,'人数':pd.value_counts(cut_750),'百分比':((pd.value_counts(cut_750))/len).round(3).apply(lambda x: format(x, '.2%'))}).sort_values(by='区间', ascending=False) qj = qj.reset_index(drop=True) return qj def cut_150(score_150,len): bins_150 = [0,30,60,90,120,150] labels_150 = ['0-30', '30-60', '60-90', '90-120', '120-150'] cut_150 = pd.cut(score_150, bins_150, labels=labels_150, right=False) qj = pd.DataFrame({'区间':pd.value_counts(cut_150).index,'人数':pd.value_counts(cut_150),'百分比':((pd.value_counts(cut_150))/len).round(3).apply(lambda x: format(x, '.2%'))}).sort_values(by='区间') 其他源代码及始数据已上传,欢迎各位借鉴,第一次编程,希望网友们能指点不足之处,联系qq:912182988
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值