- 博客(4)
- 收藏
- 关注
原创 scikit_learn.linear_model线性回归与正则化(一)
众所周知,机器学习根据训练数据是否拥有标记信息,将学习任务划分为两大类:“监督学习”与“无监督学习”,分类和回归是前者的代表,聚类是后者的代表。 在监督学习中,如果预测对象是离散值的定性分析,则属于分类范畴;如果预测对象是连续值的定量分析,则属于回归范畴。由此看来,“回归”已然占据了监督学习的半壁江山,其重要性不言而喻。############################
2017-11-16 15:29:06
959
1
原创 线性判别分析(Linear discriminant analysis)
1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的
2017-08-17 16:11:36
954
原创 scikit-learn的特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法
2017-08-03 10:45:42
1350
原创 Cohort Analysis
Cohort Analysis,是时下互联网行业的新宠,在市场已不再为虚假繁荣的数据买账时,我们必须提供新的“有效数据”来说服市场。更常见的,这个分析方法会被用来分析:用户留存情况,以及用户粘性。所以,一定记住了,不是Coherent Analysis(粘性分析),而是Cohort Analysis——一撮人分析法。虚假繁荣是什么?之前大家只关心流量、下载量、注册量,但就像花钱能买僵尸粉一样,
2017-07-27 14:09:35
2108
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人