- Python的安装步骤
1.双击安装包并执行如下操作
2.建议自定义安装路径
3.安装完成后,按下win+R,输入cmd,测试Python是否安装成功
- PyCharm的安装步骤
1.双击安装包进行安装
2.根据电脑配置选择32位或64位,勾选.py,一路next完成安装
- 第三方库(seaborn、numpy、matplotlib、pandas)的安装与导入
1.在PyCharm中安装第三方库
1.1打开PyCharm,点击File > Setting > Project:PyCharm projects > Project Interpreter,点击 + 号,搜索numpy,查找版本,点击Install Package,出现Install successfully表示安装成功(其他包类似)
1.2写入简单代码以测试
2.从网站下载安装
2.1进入https://pypi.org/至如下界面,并输入待下载的安装包numpy
2.2进入cmd执行“pip install + 包名”进行安装
2.3测试,出现>>>则表示导入成功
- 代码分析
1.导包操作
2.数据查看
2.1查看整个数据
2.2查看数据大小
2.3查看头五行
2.4查看后五行
2.5查看数据类型
2.6查看摘要信息
- 数据处理
1.数据提取
1.1提取年月日
1.2提取小时
1.3在年月日的基础上提取星期值
1.4在年月日的基础上提取月份值
2.数据转化
2.1将season转化成英文
2.2将部分变量转化成分类变量
2.3删除无意义变量
3.数据清洗
3.1查看是否缺失数据
3.2查看是否有异常值
箱型图
4.剔除数据
剔除后的数据记录
- 数据分析与可视化
1.不同月份的骑行人数
每个月份的平均骑行人数 把count列按照降序排列的结果
柱状图
2.一周内不同时间的骑行人数
一周内不同时间的骑行人数
点状图
作业:
1.不同季节不同时间的骑行人数
2.不同用户在不同时间的骑行人数
- 实践操作
1.通过字典创建如下数据库,并根据“total”列进行升序排序。
代码:
结果:
2.对第一题数据框中的‘class’列进行分组,求各班各科目及总分的平均分,并重新设置索引。
代码:
结果:
3.请创建一个包含4个元素的列表,并对其中一个元素/多个元素进行访问,增加元素和删除元素。
代码:
结果:
4.请对train.csv进行读取,并查看该数据的相关信息。
代码:
结果:
5.对(4)中的数据框中的workingday列进行修改,将values为0映射为“rest”,将values为1映射为“work”,并查看最终结果。
代码:
结果:
6.a='2019/7/12 09:24:45',提取小时数和星期值。
代码:
结果:
7.请分别用普通函数和匿名函数实现求两参数的乘积。
代码:
结果:
8.a=’2019/7/12’,用两种方法提取月份值。
代码:
结果:
9.请对train.csv文件添加‘data’列,其内容为‘datetime’列中的年月日,添加完之后删除该列,并查看结果。
代码:
结果:
10.检测train.csv数据文件是否包含了空值和异常值(注意:检测异常值时可对数据中holiday列进行绘图检验)
代码:
结果: