Python数据分析-数据预处理、统计与分析

最新推荐文章于 2024-10-11 20:29:57 发布

喝旺仔la

最新推荐文章于 2024-10-11 20:29:57 发布

阅读量504

点赞数 10

文章标签：数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_75068951/article/details/142823918

版权

一、获取数据

1、读取外部文件

二、数据理解和清洗

1、了解数据结构：行、列

print(data.shape)

2、了解列信息

print(data.columns)

3、了解数据类型：未来需要计算的需要转换成可计算的数据类型

print(data.dtypes)

4、汇总统计：

print(data.describe())

include='all'表示里边有空值

print(data.describe(include='all'))

5、缺失值处理都是0没有缺失值

print(data.isnull().sum())

6、找重复数据没有重复有重复要去重

print(data.duplicated())

三、相关性探索：用户属性、产品属性、用户行为

1、用户属性：主要包括用户的基本信息，这些属性有助于我们了解目标用户群体，从而制定更精准的市场策略。

（1）数据收集

数据来源：用户注册信息、问卷调查、第三方数据服务等。

数据格式：CSV、Excel、数据库等

（2）数据预处理

导入数据：使用pandas库读取数据。

数据清洗：处理缺失值，异常值，重复值。

数据转换：将字符串类型的数据转换为数值类型（如将性别转换为0和1）

（3）数据分析

统计描述：使用describe()方法查看数据的统计信息。

可视化：使用matplotlib等库进行数据可视化。

2、产品属性：包括产品的价格、功能、质量、外观等。这些属性对于用户满意度和购买决策具有重要影响。

（1）数据收集

数据来源：产品数据库、用户评价、竞品分析等。

（2）数据预处理

导入数据：使用pandas库读取数据。

数据清洗：处理缺失值，异常值，重复值。

数据转换：将文本描述的产品属性转换为可量化的指标

（3）数据分析

统计描述：使用describe()方法查看数据的统计信息。

可视化：使用matplotlib等库进行数据可视化。

3、用户行为：包括用户的购买行为、浏览行为、搜索行为等。这些行为数据对于了解用户需求和优化产品功能具有重要意义。

（1）数据收集

数据来源：网站日志、APP日志、第三方行为数据服务等。

（2）数据预处理

导入数据：使用pandas库读取数据。

数据清洗：处理缺失值，异常值，重复值。

数据转换：将时间戳转换为日期格式，将用户行为编码为可分析的格式。

（3）数据分析

用户画像：根据用户行为数据构建用户画像。

行为分析：分析用户的购买转化率、浏览时长、搜索频率等。

可视化：使用matplotlib等库进行数据可视化。

关注

10
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。