天池-学生考试成绩预测

14 篇文章 0 订阅
10 篇文章 0 订阅

个人学习之作,水平有限,仅供参考,与诸君共勉。

1:目的

调用库,熟悉数据清洗,数据处理,熟悉python的编程知识

大概流程如下(建议熟记,对知识的掌握和面试都是有好处的):

  1. 确保数据集本身是可用的,包括但不限于:
    a) 检查数据本身是否平衡(balanced or not),并处理
    b) 检查数据本身是否有缺失值 (missing value),并处理
    c) 检查数据本身是否有一些明显的异类数据(outlier), 根据情况再做处理

  2. 检查数据集本身特质,确定适合的机器学习模型(machine learning model)
    a) 有监督模型(Supervised) VS 无监督模型(Unsupervised)
    b) 回归模型(Regression) VS 分类模型(Classification)

  3. 通过数据可视化,建立一个对于数据集的直觉(intuition)和认知(understanding)

  4. 通过数据可视化,大致了解特征与结果之间的联系,进一步确定适合的机器学习模型

  5. 预测并验证未来模型产出的结果

  6. 对用在模型中的特征做初步的筛选

  7. 为特征工程(feature engineering)部分做准备

2: 数据

数据csv大概如下:我会上传到下载那块,有需求的朋友自己下载

3:开始

# 引入库包
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('student-por.csv')

在引入库包之后,进行初步的数据处理

print(df.head(10))
print(df.shape)
print(df.isnull().sum())
print(df.describe(include = 'all'))
print(df.info())

重点说一下,这个数据集比较干净,也无任何缺省,

数据段中文对应关系如下

字段名含义类型描述
sex性别stringF是女,M表示男
address住址stringU表示城市,R表示乡村
famsize家庭成员数stringLE3表示少于三人,GT3多于三人
pstatus是否与父母住在一起stringT住在一起,A分开
medu母亲的文化水平string从0~4逐步增高
fedu父亲的文化水平string从0~4逐步增高
mjob母亲的工作string分为教师相关、健康相关、服务业
fjob父亲的工作string分为教师相关、健康相关、服务业
guardian学生的监管人stringmother,father or other
traveltime从家到学校需要的时间double以分钟为单位
studytime每周学习时间double以小时为单位
failures挂科数double挂科次数
schoolsup是否有额外的学习辅助stringyes or no
fumsup是否有家教stringyes or no
paid是否有相关考试学科的辅助stringyes or no
activities是否有课外兴趣班stringyes or no
higher是否有向上求学意愿stringyes or no
internet家里是否联网stringyes or no
famrel家庭关系double从1~5表示关系从差到好
freetime课余时间量double从1~5从少到多
goout跟朋友出去玩的频率double从1~5从少到多
dalc日饮酒量double从1~5从少到多
walc周饮酒量double从1~5从少到多
health健康状况double从1~5从状态差到好
absences出勤量double0到93次
G1,G2,G3期末成绩double20分制

1;对性别进行处理

sns.countplot(x = 'sex', order = ['M','F'], data = df )
df['sex'].replace('M','0')
df['sex'].replace('F','1')

将M-男,F-女 转化为01

2:对地址进行转换

sns.countplot(x = 'address', order = ['U','R'], data = df )
df['address'].replace('U','1')
df['address'].replace('R','0')

 

Reference:

1:https://tianchi.aliyun.com/course/video?spm=5176.12282042.0.0.3eb22042bd6YRi&liveId=7729

1:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281897.0.0.209439a9IUXP6k&postId=7459

1:https://blog.csdn.net/jiangtianshe/article/details/77703450

 

  • 3
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值