pandas数据载入与预处理

本文分析了edX平台的数据,发现最受欢迎的课程为计算机科学,特别是HarvardX的计算机科学课程。MITx在科学、技术、工程和数学类课程中更具优势。学员主要为30岁左右的高学历男性,完成课程比例和拿到证书的比例偏低,表明课程难度或时间可能影响学习完成度。平台应考虑优化课程内容和结构,满足用户需求。
摘要由CSDN通过智能技术生成

一:提出问题:

哪些课程最受欢迎?什么类别的课程最受欢迎?

人们更喜欢Harvard还是MITx的课?

二:理解数据:

数据来源: 数据竞赛平台Kaggle

Your Home for Data Science​www.kaggle.com/

共有23个字段,一共290门在线课程。数据分为4种类型

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
%matplotlib inline
fdata = pd.read_csv('f:/anaconda/data/appendix.csv') 
fdata.head()

1、课程字段

Institution,学校

Course Number,课程ID

Launch Date,上线时间

Course Title,课程名

Instructors,讲师

Course Subject,课程类别

Year,课程持续时间

Honor Code Certificates,是否授予证书

2、数量字段

Participants (Course Content Accessed),学生数

Audited (> 50% Course Content Accessed),完成50%课程的学生数

Certified,拿到证书的人数

Total Course Hours (Thousands),总课程时间(千小时)

Median Hours for Certification,取得证书时间中位数

3、百分比字段

% Audited,完成50%课程学员的比例

% Certified,拿到证书的学员比例

% Certified of > 50% Course Content Accessed,完成课程50%学员拿到证书的比例

% Played Video,视频播放率

% Posted in Forum,论坛张贴率

% Grade Higher Than Zero,分数高于0的比例

4、用户情况字段

Median Age,年龄中位数

% Male,男性学员占比

% Female,女性学员占比

% Bachelor's Degree or Higher, 本科学历及以上比例

#修改列名
fdata.rename(columns={'Institution':'学校','Course Number':'课程ID','Launch Date':'上线时间','Course Title':'课程名'},inplace=True)
fdata.rename(columns={'Instructors':'讲师','Course Subject':'课程类别','Year':'课程持续时间','Honor Code Certificates':'是否授予证书'},inplace=True)
fdata.rename(columns={'Participants (Course Content Accessed)':'学生数','Audited (> 50% Course Content Accessed)':'完成50%课程的学生数','Certified':'拿到证书的人数','Total Course Hours (Thousands)':'总课程时间(千小时)'},inplace=True)
fdata.rename(columns={'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值