自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 python数据分析初学

PYTHON数据分析小白学习1.numpy接下面将从这5个方面来介绍numpy模块的内容:1)数组的创建2)有关数组的属性和函数3)数组元素的获取–普通索引、切片、布尔索引和花式索引4)统计函数与线性代数运算5)随机数的生成1.1数组的创建一维数组的创建可以使用numpy中的arange()函数创建一维有序数组,它是内置函数range的扩展版。In 1: import numpy as npIn 2: ls1 = range(10)In 3: list(ls1)Out...

2021-11-02 10:32:59 948

原创 spark读取csv

spark读取csv参数

2022-11-18 10:24:00 724 1

原创 SQL淘宝数据分析

淘宝数据分析

2022-04-17 17:22:35 237

原创 AB实验

开发新的商品详情页相关商品模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来进行评估。假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。访问量点击率购买率首先观察实验组访问量随时间的变化趋势图,刚开始几天可能会出现逐渐下降或逐渐上升的情况,等到趋于一个稳定趋势时,检测与对照组是否有显著差别。在一段时间内的访问量应该服从泊松分布,设这段时间为一天,那么要检验

2022-04-07 18:34:32 169

原创 决策树的简单信息

ID3算法 ,C4.5 ,CARTID3信息论,信息熵 p(X)为概率,0-1范围所以熵永远大于0单调性,发生概率越高的时间,所携带的信息熵越低非负性累加性两个独立事件同时发生的信息熵H(A,B)=H(A)+H(B)该算法利用信息增益来决定优先使用哪个特征进行分裂,信息增益越大就进行该特征分类信息增益 :划分之前的信息熵减去划分之后的信息熵叫信息增益A对D划分的期望信息为:优点ID3复杂度不高ID3算法对于离散型特征比如多加一类1,2,3...处理不好,引入...

2021-12-09 16:47:01 449

原创 Python 一些程序

切片中:find ,rfind,index ,rindexfind , index : index找不到会报错find返回-1find,rfind :find从左到右 ,rfind右侧查找判断 :startswith ,endswith ,isalpha ,isdigit ,isalnum,isspace,isupper,islower,s.startswith(' '):判断是否以此开头trueorfalses.isalpha():纯字母判断s.isalnu...

2021-11-06 22:54:44 336

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除