大数据分析技术

一、DataFrame构造函数

1.常用参数:

  1. data(列索引)

  2. index(行索引)

2.三种属性:

  1. dtypes: 返回对象的每一列数据

  2. values:以数组的形式返回对象的值

  3. index:获取行索引

3.DataFrame的轴

轴(axis),是用来为超过一维的数 组定义属性。

二维数组有两个轴,三维数组有 三个轴,以此类推。

对于DataFrame而言:

  1. 第0轴垂直向下,即axis=0垂 直方向进行操作;

  2. 第1轴水平向右,即axis=1水 平方向进行操作。

4.按照index的值访问行数据

1.访问某一行

格式: .loc[index的值]

2.访问连续的某几行

格式: .loc[ 起点的index的值 : 结束index的值 ]

3.访问不连续的某几行

格式: .loc[ [index1 , index, ......] ]

二、格式转换与统计数据函数

1.时间转换字符串

to_datatime()函数和strftime()函数,能实现字符格式和时间格式之间的相互转换。

整型、浮点型、字符串、布尔型 在满足一定条件时,也能进行相 互之间的转换,这是通过astype() 函数来实现的。

2.求均值

使用pandas模块中的mean()函数求均值

3.取整

使用pandas模块中的round()函数

.round() 后缀

.round()等价于.round(0), 表示取整。

.round(n)有三种情况:

n为正,表示保留小数点后n位小 数;

n为0,取整(保留到个位数);

n为负,-1,-2……依次表示保留到 十位数,百位数……

4.其他统计函数

cout()

median():返回位于中间的两个数的 平均值 。

三、筛选、索引、添加新列、排序

1.读取DataFrame的前五行

head()函数,读取DataFrame的前5行数据。可以使用tail()函数读取末尾5行数据。

2.符串筛选函数

.str.contains() 函数

要查找的字符串传入该函数中, 就可以得到一个布尔型Series。我 们可以通过返回的布尔型Series来 索引数据

3.设置索引

set_index()函数,作用是设置行索引,参数填写为设置的行索引

4.获取最大值的索引

idxmax()函数,用于获取最大值对应的索引;

dxmin()函数,获取最小值对应的索引。

5.重置索引

reset_index()函数,作用是重置索引,用默认索引代替。

6.添加新列

df[ " 新列名 " ]

格式:df [ " 新列名 " ] = new_value

7.数据排序

sort_values()是数据排序函数, df是待排序的对象。

df.sort_values()表示对df进行数 据排序。

四、数据清洗

五、可视化基础

1.matplotlib图像的构成

这些元素可以分为两大类:

  1. 基础类,就是我们需要绘 制的标准对象,比如折线、 标记、图例等。

  2. 容器类,包含许多基础类 元素并将它们组织成一个整 体,比如画布、坐标轴等。

2.设置中文字体

使用代码:plt .rcParams [ " font. sans-serif " ]=" Arial Unicode MS "

3.绘制折线图

  1. 设置颜色: color参数

  2. 设置折线图标记: marker 参数

  3. 添加并显示图例说明: label参数和plt.legend()函数

  4. 添加坐标轴标题和添加图 像标题:plt.xlabel()、 plt.ylabel()函数和plt.title() 函数

4.绘制柱状图

plt.bar()函数

5.散点图

plt.scatter()函数

6.双y轴叠加图

plt.twinx()函数

7.簇行柱状图

plt.xlable()函数、plt.ylable()函数、plt.title()函数

8.百分比堆积图

plt.xlable()函数、plt.ylable()函数、plt.title()函数

9.并列子图

plt.subplot(1,1,1)

三个参数

  1. 子图的行数

  2. 子图的列数

  3. 子图的序号

userCF——基于用户的协同过滤算法

step1. 分析数据集,找到相似的用户

step2. 将相似用户喜欢的物品推荐给目标客户

数据结构透视表

能够直观展示表数据的统计信息,可以对数据进行分类汇总。

  1. 行索引:index

  2. 列索引:columns

  3. 值:values

通过pivot_table()函数,构建数据透视表

皮尔逊相关系数

快速计算相似度

计算皮尔逊相关系数时,要以数据少的一方为基准

使用corr()函数,计算列与列之间的非空数据的皮尔逊相关性系数

用户相似度矩阵——corrMatrix

  • 22
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值