问题背景
需要从excel表中统计调查问卷,如下图,需要统计每一个因素的频数。
这个表有好几千行呐,作为新时代中国特色社会主义思想的传承者,肯定不能用数的吧。最开始是想用Excel中的查找功能的,但有好几个这个表呢,不便于批量操作,就想着锻炼一下python。
思路
先用pandas提取某一列问题及其回答,统计每一个影响因素出现的频数。采用双重遍历,先遍历所有的影响因素,然后遍历所有的回答,判断回答中出现的因素,每出现一个因素就累加一次。
比如,先遍历第一个影响因素,外面吵、有噪音时关,再遍历第一个回答外面吵、有噪音时关┋出门离家时关┋外面天气不好(刮风、下雨、沙尘)时关┋室外有雾霾时关┋回南天时关 出现了外面吵、有噪音时关,那么就加一。
因为只需要统计几个问题,提取问题 的代码就手动整理好了。
代码
import pandas as pd
import re
path = r'C:\Users\hao\Desktop\两广-327份数据-有选项.xlsx'
df = pd.read_excel(path, sheet_name='Sheet1')