jupyter操作

#Python 中插入pandas 包;
import pandas 

#读取文件后赋值给 users 这个变量;
users = pandas.read_csv("/Users/kanliangliang/Desktop/train_users_2.csv")

#找出数据中具体位置的值;这里是读取变量“age"的前4个分量;
users.loc[0:3,"age"]
#首先需要进行的是对数据的基本查看
#第一行是属性的名称,index从0开始,NaN代表missing value
users.head()
#和head相反,tail给出了数据集末尾的值
users.tail()
users.describe()
users.shape
users.head()
uesers.loc[0:3,"age"]

#把变量改为日期格式,为了方便后续的日期加减。下面是把变量转换为日期后再赋值给这个变量;
users["date_account_created"] = pandas.to_datetime(users["date_account_created"])

#取date_account_created中的前两个分量相减测试结果;
users.loc[0,"date_account_created"] - users.loc[1,"date_account_created"]
#结果表明第一个分量比第二个分量要早331天;

#定义到时分秒的关系,设置format函数参数,针对一些非常规的数据,只是加了一个调控开关 format=“%Y%m%d%H%M%S”
users["timestamp_first_active"] = pandas.to_datetime(users["timestamp_first_active"],format="%Y%m%d%H%M%S")
#查看转变之后的结果,注意输出的最后里面的 dtype 是 datetime 的形式
users.loc[0:3,"timestamp_first_active"]

# 处理缺失值
#缺失值的处理之一,用 pandas["variablename"].dropna() 函数
#之前看到变量“age”里是有 NaN 值的
users["age"].dropna()
#观察结果发现第0,5……个分量都是空值,直接去掉,将近有9万个空值

#########画图,可以很直观的观察数据的异常值
import seaborn
%matplotlib inline#用 jupyter 在输出结果中显示出画图
#用去掉空值的 age 分量去画图,寻找异常值
seaborn.distplot(users['age'].dropna())#柱状图
seaborn.boxplot(users['age'].dropna())#箱线图

#异常数据处理:筛选age<90以及>10
users_with_true_age=users[users["age"]<90]
users_with_true_age=users_with_true_age[users_with_true_age["age"]>10]
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值