- 博客(8)
- 收藏
- 关注
原创 数据清洗
数据清洗缺失值处理重复值处理特征处理遗留问题:缺失值处理查看缺失值:主要看是哪个特征有多少个缺失值;df.isnull().sum()处理缺失值:填充or删除特征;df.dropna()df["Age"].dropna()df.fillna(0)重复值处理重复值的查看;df.duplicated()重复值处理:删除;df.drop_duplicates()特征处理数据分箱:对年龄这种连续性数据离散化:平均分为几个阶段、设定间隔分段、按照百分比分段;
2020-09-05 16:11:37 135
原创 数据分析第一节_数据加载和初步认识
数据加载和初步认识数据加载数据概况查看数据加载前置条件:导入numpy和pandas包;import numpy as pyimport pandas as pd加载方式:整体加载、逐块加载;df=pd.read_csv("train.csv")df_chunker=pd.read_csv("train.csv",chunksize=1000)#逐块读取的好处;路径不同:相对路径、绝对路径;df=pd.read_csv("train.csv")df_abso=pd.read
2020-09-05 14:41:02 175
原创 python&jupyter安装教程
python 、jupyter安装教程手动安装python、jupyter的教程;下载安装pythonpython安装包的下载地址:https://www.python.org选择版本 根据自己的操作系统选择;作者选的是Windows x86-64 executable installer;下载完成直接运行;注意自己的安装路径(上面的红框),注意选择“Add python 3.6 to path”(下面的红框);一直点“next“”就可以完成;可以打开cmd输入“pyt
2020-08-28 21:45:01 7704 9
原创 数据分析第五课
数据分析第五课查看DF数据的每列的项df.columns查看cabin这列所有的项df['Cabin'].head(3)ordf.Cabin.head(3)对比两个数据文件,删除多于的列test_1 = pd.read_csv('test_1.csv')test_1.head(3)隐藏部分列,只查看其它列df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)...
2020-08-28 11:21:02 118
原创 数据分析第四课
数据分析第四课以Age为筛选条件df[df["Age"]<10].head(3)以Age为条件,筛选年龄在10到50之间的乘客;并将其命名为midage;midage = df[(df["Age"]>10)& (df["Age"]<50)]midage.head(3)将midage的数据中的“Pclass”显示出来;midage = midage.reset_index(drop=True)midage.head(3)使用loc将指定数据筛选
2020-08-26 09:31:36 116
原创 2020-08-23
数据分析第三课学习pandas的两种数据类型dataframe以及series; example_1 = pd.Series(sdata) example_2 = pd.DataFrame(data)查看列项目df.columns查看某一列的所有项目df['Cabin'].head(3)ordf.Cabin.head(3)对比两个数据集,并删除多出来的列;test_1 = pd.read_csv('test_1.csv')test_1.head(3)# 删除多
2020-08-23 21:48:30 94
原创 DW数据分析第二课
数据分析第二课逐块读取:每1000行为一个模块读取数据chunker =pd.read_csv('train.csv',chunksize=1000)思考:逐块读取主要应对数据量特别大的,一次性全部读取,服务器是吃不消,所以就有必要使用分块读取;将表头改为中文df = pd.read_csv('train.csv', names=['乘客ID', '是否获救','舱位等级','姓名', '性别', '年龄', '兄弟姐妹个数', '父母子女个数', '船票号码', '票价', '客舱号'
2020-08-21 22:01:08 362
原创 数据分析学习笔记
数据分析学习笔记-第一记第一次尝试边学习边写笔记,重新学习数据分析,记录一些自己的小困难解决;前期准备新手难免碰到各种有些小尴尬的问题,以下为准备工作的流程和期间遇到的小困难;安装python: 主要是要去官网下载python,配置环境(这次没有重新搞,所以就不赘述);**安装numpy和pandas:**主要在终端输入pip install numpy如果显示已存在,需要更新,可以使用代码python -m pip install -upgrade pip如果发现经常运行了一些,
2020-08-19 20:36:43 183
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人