jupyter操作

最新推荐文章于 2024-06-03 23:33:59 发布

qq_44482764

最新推荐文章于 2024-06-03 23:33:59 发布

阅读量665

点赞数 1

文章标签： jupyter python 数据挖掘

本文链接：https://blog.csdn.net/qq_44482764/article/details/121430153

版权

#Python 中插入pandas 包；
import pandas 

#读取文件后赋值给 users 这个变量；
users = pandas.read_csv("/Users/kanliangliang/Desktop/train_users_2.csv")

#找出数据中具体位置的值；这里是读取变量“age"的前4个分量；
users.loc[0:3,"age"]
#首先需要进行的是对数据的基本查看
#第一行是属性的名称，index从0开始，NaN代表missing value
users.head()
#和head相反，tail给出了数据集末尾的值
users.tail()
users.describe()
users.shape
users.head()
uesers.loc[0:3,"age"]

#把变量改为日期格式，为了方便后续的日期加减。下面是把变量转换为日期后再赋值给这个变量；
users["date_account_created"] = pandas.to_datetime(users["date_account_created"])

#取date_account_created中的前两个分量相减测试结果；
users.loc[0,"date_account_created"] - users.loc[1,"date_account_created"]
#结果表明第一个分量比第二个分量要早331天；

#定义到时分秒的关系，设置format函数参数，针对一些非常规的数据，只是加了一个调控开关 format=“%Y%m%d%H%M%S”
users["timestamp_first_active"] = pandas.to_datetime(users["timestamp_first_active"],format="%Y%m%d%H%M%S")
#查看转变之后的结果，注意输出的最后里面的 dtype 是 datetime 的形式
users.loc[0:3,"timestamp_first_active"]

# 处理缺失值
#缺失值的处理之一，用 pandas["variablename"].dropna() 函数
#之前看到变量“age”里是有 NaN 值的
users["age"].dropna()
#观察结果发现第0，5……个分量都是空值，直接去掉，将近有9万个空值

#########画图,可以很直观的观察数据的异常值
import seaborn
%matplotlib inline#用 jupyter 在输出结果中显示出画图
#用去掉空值的 age 分量去画图，寻找异常值
seaborn.distplot(users['age'].dropna())#柱状图
seaborn.boxplot(users['age'].dropna())#箱线图

#异常数据处理：筛选age<90以及>10
users_with_true_age=users[users["age"]<90]
users_with_true_age=users_with_true_age[users_with_true_age["age"]>10]

qq_44482764

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jupyter操作

#Python 中插入pandas 包；import pandas #读取文件后赋值给 users 这个变量；users = pandas.read_csv("/Users/kanliangliang/Desktop/train_users_2.csv")#找出数据中具体位置的值；这里是读取变量“age"的前4个分量；users.loc[0:3,"age"]#首先需要进行的是对数据的基本查看#第一行是属性的名称，index从0开始，NaN代表missing valueusers.head
复制链接

扫一扫