1. 导入数据,打印数据属性列表
import pandas as pd
original_data = pd.read_excel('19.新策略人群标注问卷数据_3030.xlsx')
print(original_data.columns.tolist())
2. 获得单选题列表
danxuan_list = [ '1.年龄', '3.您购买的家具,是放在哪里?', '4.购买家具时的决定人', '5.购买家具的总费用/预算是(成品+定制)',
'6.购买的家具是成品还是定制', '7.第几次购买家具', '9.您放置家具的房子建筑面积是', '10.您放置家具的户型是',
'11.您放置家具的房屋类型是', '12.目前放置家具的房子,是您的第几次置业', '13.您放置家具的房子,属于以下哪种情况',
'14.您家庭常住人口结构是', '22.硬装软装顺序', '24.客厅消费观', '24.餐厅消费观', '24.卧室消费观', '24.儿童房消费观',
'24.书房消费观', '24.阳台消费观', '24.其他空间消费观', '25.当您心仪的家具超出您的购买预算时', '26.您平时的生活办公状态是',
'28.您家是否有(或希望有)专门的工作区域', '30.经常有朋友来家中聚会吗', '32.您日常在家吃饭的人数',
'33.您和家人在家做饭的频率是', '38.您平均每天的睡眠时长是', '39.您的睡眠质量', '46.孩子几岁时(希望他)可以自己独立睡',
'47.孩子平均每天的睡眠时长是', '48.您孩子的睡眠质量', '49.您认为需要为孩子设置单独的儿童房吗',
'51.您希望儿童房的家具使用到哪个时候', '54.您给孩子买的床垫的价格是', '57.性别', '58.职业', '59.受教育程度']
3.检查每一列是否都是int格式,不是的进行处理
original_data[danxuan_list].info()
original_data['48.您孩子的睡眠质量'] = original_data['48.您孩子的睡眠质量'].fillna(-3).astype(int<