自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 天猫订单分析

本项目的数据为2020年2月份天猫某店铺的订单成交数据,共28010条。本人以促进产品销售为目的对项目数据进行分析操作,主要分析思想为结构分析、周期分析、比较分析、关联分析;通过数据分析,进而明确销售现状、挖掘潜在规律、发现存在问题、提出可行性建议,进而为优化经营起到助力作用。具体工作做内容包括:数据清洗,异常值处理,概要性描述性分析,小时、日、周、月销售趋势分析、周期特点分析,退款及退款率分析、订单生命周期分析、销售额地域分布情况分析、产品价格分析、转化率分析等。......

2022-08-10 13:05:42 3322

原创 泰坦尼克项目小结

本项目源自开源组织Datawhale组织的组队学习活动;本篇是对这次学习过程的总结。(图转网络,侵删)

2022-05-28 23:44:16 187

原创 Titanic 第二章第四节数据可视化

来自Datawhale组队学习的kaggle项目《泰坦尼克

2022-05-23 23:58:21 546

原创 Titanic2.6 第一部分:数据聚合与运算

来自Datawhale组队学习的kaggle项目《泰坦尼克》

2022-05-23 23:50:28 113

原创 Titanic第二章:数据重构

2.4 数据的合并2.4.1 任务一:将data文件夹里面的所有数据都载入,观察数据的之间的关系import numpy as npimport pandas as pddf_LeftUp = pd.read_csv('data/train-left-up.csv')df_RightUp = pd.read_csv('data/train-right-up.csv')df_LeftDown = pd.read_csv('data/train-left-down.csv')df_Right

2022-05-23 23:39:28 101

原创 Titanic第二章:第一节数据清洗及特征处理

2.1 缺失值观察与处理import numpy as npimport pandas as pdfrom matplotlib import pyplot as plt#读取文件traindf = pd.read_csv('train.csv')df.info()2.1.1 任务一:缺失值观察df.isnull()df.isnull().sum()df[['Age','Cabin', 'Embarked']]2.1.2 任务二:对缺失值进行处理df1 = df.

2022-05-23 23:26:02 327

原创 第三章 模型搭建和评估-评估

模型评估 模型评估是为了知道模型的泛化能力。 交叉验证(cross-validation)是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。 在交叉验证中,数据被多次划分,并且需要训练多个模型。 最常用的交叉验证是 k 折交叉验证(k-fold cross-validation),其中 k 是由用户指定的数字,通常取 5 或 10。 准确率(precision)度量的是被预测为正例的样本中有多少是真正的正例 召回率(recall)度量的是正类样本中有多少被预测为正类 f-分数是

2022-05-21 22:50:12 211

原创 第三章 模型搭建和评估--建模

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正..

2022-05-21 22:45:25 266

原创 第一章:第二节pandas基础-课程.ipynb

1 第一章:数据载入及初步观察import numpy as npimport pandas as pd1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰[开放题]a = pd.Series(np.random.randn(5), index=['a','b','c','d', 'e'])aa 1.746811b -0.741633c -0.638711d -0.2

2022-05-21 22:34:14 268

原创 DataWhale组队学习《Titanic》

Datawhale组队学习笔记《Titanic》

2022-05-19 23:11:37 53

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除