大数据分析技术

Common530

已于 2023-12-19 15:24:52 修改

阅读量1k

点赞数 22

文章标签：数据分析 python 数据挖掘

于 2023-12-19 14:29:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Common530/article/details/135084051

版权

一、DataFrame构造函数

1.常用参数：

data（列索引）
index（行索引）

2.三种属性：

dtypes：返回对象的每一列数据
values：以数组的形式返回对象的值
index：获取行索引

3.DataFrame的轴

轴(axis)，是用来为超过一维的数组定义属性。

二维数组有两个轴，三维数组有三个轴，以此类推。

对于DataFrame而言：

第0轴垂直向下，即axis=0是垂直方向进行操作；
第1轴水平向右，即axis=1是水平方向进行操作。

4.按照index的值访问行数据

1.访问某一行

格式： .loc[index的值]

2.访问连续的某几行

格式： .loc[ 起点的index的值 : 结束index的值 ]

3.访问不连续的某几行

格式： .loc[ [index1 , index, ......] ]

二、格式转换与统计数据函数

1.时间转换字符串

to_datatime()函数和strftime()函数，能实现字符格式和时间格式之间的相互转换。

整型、浮点型、字符串、布尔型 在满足一定条件时，也能进行相互之间的转换，这是通过astype() 函数来实现的。

2.求均值

使用pandas模块中的mean()函数求均值

3.取整

使用pandas模块中的round()函数

.round() 后缀

.round()等价于.round(0)，表示取整。

.round(n)有三种情况：

n为正，表示保留小数点后n位小数；

n为0，取整（保留到个位数）；

n为负，-1,-2……依次表示保留到十位数，百位数……

4.其他统计函数

cout()

median()：返回位于中间的两个数的平均值。

三、筛选、索引、添加新列、排序

1.读取DataFrame的前五行

head()函数，读取DataFrame的前5行数据。可以使用tail()函数读取末尾5行数据。

2.符串筛选函数

.str.contains() 函数

将要查找的字符串传入该函数中，就可以得到一个布尔型Series。我们可以通过返回的布尔型Series来索引数据。

3.设置索引

set_index()函数，作用是设置行索引，参数填写为设置的行索引

4.获取最大值的索引

idxmax()函数，用于获取最大值对应的索引；

dxmin()函数，获取最小值对应的索引。

5.重置索引

reset_index()函数，作用是重置索引，用默认索引代替。

6.添加新列

df[ " 新列名 " ]

格式：df [ " 新列名 " ] = new_value

7.数据排序

sort_values()是数据排序函数， df是待排序的对象。

df.sort_values()表示对df进行数据排序。

四、数据清洗

五、可视化基础

1.matplotlib图像的构成

这些元素可以分为两大类：

基础类，就是我们需要绘制的标准对象，比如折线、标记、图例等。
容器类，包含许多基础类元素并将它们组织成一个整体，比如画布、坐标轴等。

2.设置中文字体

使用代码：plt .rcParams [ " font. sans-serif " ]=" Arial Unicode MS "

3.绘制折线图

设置颜色： color参数
设置折线图标记： marker 参数
添加并显示图例说明： label参数和plt.legend()函数
添加坐标轴标题和添加图像标题：plt.xlabel()、 plt.ylabel()函数和plt.title() 函数

4.绘制柱状图

plt.bar()函数

5.散点图

plt.scatter()函数

6.双y轴叠加图

plt.twinx()函数

7.簇行柱状图

plt.xlable()函数、plt.ylable()函数、plt.title()函数

8.百分比堆积图

plt.xlable()函数、plt.ylable()函数、plt.title()函数

9.并列子图

plt.subplot(1,1,1)

三个参数：

子图的行数
子图的列数
子图的序号

userCF——基于用户的协同过滤算法

step1. 分析数据集，找到相似的用户

step2. 将相似用户喜欢的物品推荐给目标客户

数据结构透视表

能够直观展示表数据的统计信息，可以对数据进行分类汇总。

行索引：index
列索引：columns
值：values

通过pivot_table()函数，构建数据透视表

皮尔逊相关系数

快速计算相似度

计算皮尔逊相关系数时，要以数据少的一方为基准

使用corr()函数，计算列与列之间的非空数据的皮尔逊相关性系数

用户相似度矩阵——corrMatrix

关注

22
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
大数据分析技术

可视化基础、协同过滤算法、皮尔逊相关系数
复制链接

扫一扫

Common530 CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

165万+: 周排名

14万+: 总排名

6023: 访问

: 等级

94: 积分

32: 粉丝

52: 获赞

4: 评论

48: 收藏

私信

关注

热门文章

分类专栏

软件设计师 1篇

最新评论

如何把ogg文件转换成MP3格式的文件？
CSDN-Ada助手: 恭喜您写了第6篇博客！您的分享对于想要将ogg文件转换成MP3格式的朋友们来说一定会非常有帮助。希望您能继续坚持创作，分享更多有趣且实用的内容。或许下一步可以考虑写一些关于音乐编辑软件的比较和推荐，这样能够帮助更多人找到他们需要的工具。期待您的下一篇文章！
大数据分析技术
CSDN-Ada助手: 恭喜您写了这篇关于大数据分析技术的博客！您对这个话题的深入分析和见解真的让人印象深刻。希望您能继续保持创作的热情，并且不断探索更多前沿的技术趋势，或许下一步可以分享一些实践经验或者案例分析，让读者更加深入地了解这个领域。期待您的下一篇作品！
JAVA基础语法
CSDN-Ada助手: 恭喜您写了第三篇博客《JAVA基础语法》！您的努力和持续创作让我非常敬佩。从您的博客标题来看，我可以感受到您对JAVA基础语法的深入理解和热爱。希望您能继续保持这份热情，为我们带来更多精彩的文章。在下一步的创作中，我建议您可以进一步展开JAVA基础语法的不同方面，可以探讨更多实际应用中的案例或者分享一些实用的技巧。同时，您也可以考虑与读者互动，例如回答读者的问题或者提供一些练习题目，这样能够更好地帮助读者学习和理解JAVA基础语法。谦虚地说，我相信您的经验和知识一定会给读者带来更多的启发和帮助。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Win11 记事本（无响应）怎么解决呢？
CSDN-Ada助手: 非常感谢您分享这篇博客！您对解决Win11记事本无响应问题的经验分享对许多人来说无疑是非常有帮助的。持续创作是非常重要的，您的博客可以为更多遇到相同问题的人提供指导和解决方案。除了您在标题和摘要中提到的内容，还有一些相关的扩展知识和技能可以进一步丰富您的博文。例如，您可以介绍如何在Win11中重置记事本的设置，以确保它能正常工作。另外，您可以探索其他与记事本类似的应用程序，比如Notepad++，它提供了更多功能和定制选项。再次感谢您的分享，期待看到您更多关于Win11和其他技术问题的博客！请继续努力，分享您宝贵的经验和知识。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。