自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 scikit_learn.linear_model线性回归与正则化(一)

众所周知,机器学习根据训练数据是否拥有标记信息,将学习任务划分为两大类:“监督学习”与“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。        在监督学习中,如果预测对象是离散值的定性分析,则属于分类范畴;如果预测对象是连续值的定量分析,则属于回归范畴。由此看来,“回归”已然占据了监督学习的半壁江山,其重要性不言而喻。############################

2017-11-16 15:29:06 959 1

原创 线性判别分析(Linear discriminant analysis)

1. 问题     之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。     比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的

2017-08-17 16:11:36 954

原创 scikit-learn的特征工程

目录1 特征工程是什么?2 数据预处理  2.1 无量纲化    2.1.1 标准化    2.1.2 区间缩放法    2.1.3 标准化与归一化的区别  2.2 对定量特征二值化  2.3 对定性特征哑编码  2.4 缺失值计算  2.5 数据变换  2.6 回顾3 特征选择  3.1 Filter    3.1.1 方差选择法   

2017-08-03 10:45:42 1350

原创 Cohort Analysis

Cohort Analysis,是时下互联网行业的新宠,在市场已不再为虚假繁荣的数据买账时,我们必须提供新的“有效数据”来说服市场。更常见的,这个分析方法会被用来分析:用户留存情况,以及用户粘性。所以,一定记住了,不是Coherent Analysis(粘性分析),而是Cohort Analysis——一撮人分析法。虚假繁荣是什么?之前大家只关心流量、下载量、注册量,但就像花钱能买僵尸粉一样,

2017-07-27 14:09:35 2108 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除