一、DataFrame构造函数
1.常用参数:
-
data(列索引)
-
index(行索引)
2.三种属性:
-
dtypes: 返回对象的每一列数据
-
values:以数组的形式返回对象的值
-
index:获取行索引
3.DataFrame的轴
轴(axis),是用来为超过一维的数 组定义属性。
二维数组有两个轴,三维数组有 三个轴,以此类推。
对于DataFrame而言:
-
第0轴垂直向下,即axis=0是垂 直方向进行操作;
-
第1轴水平向右,即axis=1是水 平方向进行操作。
4.按照index的值访问行数据
1.访问某一行
格式: .loc[index的值]
2.访问连续的某几行
格式: .loc[ 起点的index的值 : 结束index的值 ]
3.访问不连续的某几行
格式: .loc[ [index1 , index, ......] ]
二、格式转换与统计数据函数
1.时间转换字符串
to_datatime()函数和strftime()函数,能实现字符格式和时间格式之间的相互转换。
整型、浮点型、字符串、布尔型 在满足一定条件时,也能进行相 互之间的转换,这是通过astype() 函数来实现的。
2.求均值
使用pandas模块中的mean()函数求均值
3.取整
使用pandas模块中的round()函数
.round() 后缀
.round()等价于.round(0), 表示取整。
.round(n)有三种情况:
n为正,表示保留小数点后n位小 数;
n为0,取整(保留到个位数);
n为负,-1,-2……依次表示保留到 十位数,百位数……
4.其他统计函数
cout()
median():返回位于中间的两个数的 平均值 。
三、筛选、索引、添加新列、排序
1.读取DataFrame的前五行
head()函数,读取DataFrame的前5行数据。可以使用tail()函数读取末尾5行数据。
2.符串筛选函数
.str.contains() 函数
将要查找的字符串传入该函数中, 就可以得到一个布尔型Series。我 们可以通过返回的布尔型Series来 索引数据。
3.设置索引
set_index()函数,作用是设置行索引,参数填写为设置的行索引
4.获取最大值的索引
idxmax()函数,用于获取最大值对应的索引;
dxmin()函数,获取最小值对应的索引。
5.重置索引
reset_index()函数,作用是重置索引,用默认索引代替。
6.添加新列
df[ " 新列名 " ]
格式:df [ " 新列名 " ] = new_value
7.数据排序
sort_values()是数据排序函数, df是待排序的对象。
df.sort_values()表示对df进行数 据排序。
四、数据清洗
五、可视化基础
1.matplotlib图像的构成
这些元素可以分为两大类:
-
基础类,就是我们需要绘 制的标准对象,比如折线、 标记、图例等。
-
容器类,包含许多基础类 元素并将它们组织成一个整 体,比如画布、坐标轴等。
2.设置中文字体
使用代码:plt .rcParams [ " font. sans-serif " ]=" Arial Unicode MS "
3.绘制折线图
-
设置颜色: color参数
-
设置折线图标记: marker 参数
-
添加并显示图例说明: label参数和plt.legend()函数
-
添加坐标轴标题和添加图 像标题:plt.xlabel()、 plt.ylabel()函数和plt.title() 函数
4.绘制柱状图
plt.bar()函数
5.散点图
plt.scatter()函数
6.双y轴叠加图
plt.twinx()函数
7.簇行柱状图
plt.xlable()函数、plt.ylable()函数、plt.title()函数
8.百分比堆积图
plt.xlable()函数、plt.ylable()函数、plt.title()函数
9.并列子图
plt.subplot(1,1,1)
三个参数:
-
子图的行数
-
子图的列数
-
子图的序号
userCF——基于用户的协同过滤算法
step1. 分析数据集,找到相似的用户
step2. 将相似用户喜欢的物品推荐给目标客户
数据结构透视表
能够直观展示表数据的统计信息,可以对数据进行分类汇总。
-
行索引:index
-
列索引:columns
-
值:values
通过pivot_table()函数,构建数据透视表
皮尔逊相关系数
快速计算相似度
计算皮尔逊相关系数时,要以数据少的一方为基准
使用corr()函数,计算列与列之间的非空数据的皮尔逊相关性系数
用户相似度矩阵——corrMatrix