自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 数据清洗

数据清洗缺失值处理重复值处理特征处理遗留问题:缺失值处理查看缺失值:主要看是哪个特征有多少个缺失值;df.isnull().sum()处理缺失值:填充or删除特征;df.dropna()df["Age"].dropna()df.fillna(0)重复值处理重复值的查看;df.duplicated()重复值处理:删除;df.drop_duplicates()特征处理数据分箱:对年龄这种连续性数据离散化:平均分为几个阶段、设定间隔分段、按照百分比分段;

2020-09-05 16:11:37 133

原创 数据分析第一节_数据加载和初步认识

数据加载和初步认识数据加载数据概况查看数据加载前置条件:导入numpy和pandas包;import numpy as pyimport pandas as pd加载方式:整体加载、逐块加载;df=pd.read_csv("train.csv")df_chunker=pd.read_csv("train.csv",chunksize=1000)#逐块读取的好处;路径不同:相对路径、绝对路径;df=pd.read_csv("train.csv")df_abso=pd.read

2020-09-05 14:41:02 173

原创 python&jupyter安装教程

python 、jupyter安装教程手动安装python、jupyter的教程;下载安装pythonpython安装包的下载地址:https://www.python.org选择版本 根据自己的操作系统选择;作者选的是Windows x86-64 executable installer;下载完成直接运行;注意自己的安装路径(上面的红框),注意选择“Add python 3.6 to path”(下面的红框);一直点“next“”就可以完成;可以打开cmd输入“pyt

2020-08-28 21:45:01 7679 9

原创 数据分析第五课

数据分析第五课查看DF数据的每列的项df.columns查看cabin这列所有的项df['Cabin'].head(3)ordf.Cabin.head(3)对比两个数据文件,删除多于的列test_1 = pd.read_csv('test_1.csv')test_1.head(3)隐藏部分列,只查看其它列df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)...

2020-08-28 11:21:02 117

原创 数据分析第四课

数据分析第四课以Age为筛选条件df[df["Age"]<10].head(3)以Age为条件,筛选年龄在10到50之间的乘客;并将其命名为midage;midage = df[(df["Age"]>10)& (df["Age"]<50)]midage.head(3)将midage的数据中的“Pclass”显示出来;midage = midage.reset_index(drop=True)midage.head(3)使用loc将指定数据筛选

2020-08-26 09:31:36 115

原创 2020-08-23

数据分析第三课学习pandas的两种数据类型dataframe以及series; example_1 = pd.Series(sdata) example_2 = pd.DataFrame(data)查看列项目df.columns查看某一列的所有项目df['Cabin'].head(3)ordf.Cabin.head(3)对比两个数据集,并删除多出来的列;test_1 = pd.read_csv('test_1.csv')test_1.head(3)# 删除多

2020-08-23 21:48:30 89

原创 DW数据分析第二课

数据分析第二课逐块读取:每1000行为一个模块读取数据chunker =pd.read_csv('train.csv',chunksize=1000)思考:逐块读取主要应对数据量特别大的,一次性全部读取,服务器是吃不消,所以就有必要使用分块读取;将表头改为中文df = pd.read_csv('train.csv', names=['乘客ID', '是否获救','舱位等级','姓名', '性别', '年龄', '兄弟姐妹个数', '父母子女个数', '船票号码', '票价', '客舱号'

2020-08-21 22:01:08 361

原创 数据分析学习笔记

数据分析学习笔记-第一记第一次尝试边学习边写笔记,重新学习数据分析,记录一些自己的小困难解决;前期准备新手难免碰到各种有些小尴尬的问题,以下为准备工作的流程和期间遇到的小困难;安装python: 主要是要去官网下载python,配置环境(这次没有重新搞,所以就不赘述);**安装numpy和pandas:**主要在终端输入pip install numpy如果显示已存在,需要更新,可以使用代码python -m pip install -upgrade pip如果发现经常运行了一些,

2020-08-19 20:36:43 182

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除