需求:将图片变成表格
图片如下:
先用识图软件将文字提取,而后利用python中的字典构造数据集,最后利用dataframe构造,最后利用excel进行专职
data = {'ID': '用于识别候选人的唯一ID',
'Salary': '向候选人提供的年度CTC (以INR为单位)',
'Gender': '候选人的性别',
'DOB': '候选人的出生日期',
'10%': '在10年级考试中获得的总成绩',
'10board': '10年级时遵循其课程的校务委员会',
'12毕业': '毕业年份-高中',
'12%': '在12年级考试中获得的总成绩',
'12board': '候选人遵循其课程的校务委员会',
'CollegeID': '唯一ID,用于标识候选人为其大学就读的大学/学院',
'CollegeTier': '每所大学都被标注为1或2。标注是根据该学院/大学学生获得的平均AMCAT分数计算得出的。平均分数高于',
'Degree': '候选人获得/追求的学位',
'Specialization': '候选人追求的专业化',
'CollegeGPA': '毕业时的GPA总计',
'CollegeCityID': '唯一的ID,用于标识学院所在的城市。',
'CollegeCityTier': '学院所在城市的层。这是根据城市人口进行注释的。',
'CollegeState': '学院所在州的名称',
'GraduationYear': '毕业年份(学士学位)',
'English': 'AMCAT英语部分中的分数',
'Logical': '在AMCAT逻辑能力部分中得分',
'Quant': '在AMCAT的”定量能力”部分中得分',
'Domain': 'AMCAT域模块中的分数',
'ComputerProgramming': 'AMCAT的“计算机编程”部分中的得分',
'ElectronicsAndSemicon': 'AMCAT的“电子和半导体工程”部分得分',
'ComputerScience': '在AMCAT的“计算机科学”部分中得分',
'MechanicalEngg': 'AMCAT机械工程部分中的得分',
'ElectricalEngg': 'AMCAT的电气工程部分中的得分',
'TelecomEngg': 'AMCAT的”电信工程”部分中的得分',
'CivilEngg': 'AMCAT的“土木工程”部分中的得分',
'DueDiligence': 'AMCAT人格测验之一的分数',
'Conscientiousness': 'AMCAT人格测验之一的分数',
'Extraversion': 'AMCAT人格测验之一的分数',
'Agreeableness': 'AMCAT人格测验之一的分数',
'OpennessToExperience': '分数在AMCAT的个性测试的部分之一'
}
df = pd.DataFrame(data, index=[1])
print(df)