小唐机器学习实战
骑着蜗牛逛世界
只当个人学习记录之用
展开
-
1、线性回归、梯度下降
似然函数:求的成为最大值的概率的参数原创 2018-08-22 16:14:53 · 107 阅读 · 0 评论 -
4、贝叶斯算法
拼写纠错案列 垃圾邮件分类原创 2018-08-23 09:46:38 · 136 阅读 · 0 评论 -
2、逻辑回归
原创 2018-08-23 09:47:04 · 141 阅读 · 0 评论 -
3、决策树与集成算法
如果只考虑信息增益,当考虑编号因素时,信息增益最大,对分类没作用 集成方法 Bagging思想:随机森林(并行进行) 二重随机性:取数据的60%-80%,特征的60%-80% Boosting算法:串行进行 Adaboost Stacking思想:拿多个分类器分类,把分类结果作为输入进行第二部训练 ...原创 2018-08-23 09:47:17 · 396 阅读 · 0 评论 -
6、Kmeans、PCA聚类算法
PCA:把原来100维的有意义特征映射到10维无实际物理意义的项原创 2018-08-23 09:47:31 · 364 阅读 · 0 评论 -
8、神经网络
线性分类器 SVM合页损失函数 加上正则化 softmax softmax损失函数月接近于1,损失越小,为0 对比:svm损失函数对10、9、9得分无损失 反向传播 多步运算 正则化的作用 数据预处理 ...原创 2018-08-23 09:47:47 · 121 阅读 · 0 评论 -
5、SVM支持向量机
点到平面的距离通过x-x^的距离来计算 数据定义 目标函数 目标函数求解: a等于0就不是支持向量,对最终结果没影响 软间隔 核变换 ...原创 2018-08-23 14:26:28 · 130 阅读 · 0 评论 -
7、xgboost
喜不喜欢玩游戏的概率原创 2018-08-23 18:07:13 · 120 阅读 · 0 评论 -
实战-----用户流失预警
1用户流失预测 数据预处理:包括删除没用的列、归一化各特征的区间、把yes no、TRUE、False转换为0/1 SVC、RF、KNN三种分类器 只看预测准确率没用,要考虑Recall,因为只有预测出真正流失的客户才有意义 按有多大概率流失可能性来获取预测准确度:70%概率流失时,预测准确度是94% #! /usr/bin/python # -*-coding:u...原创 2018-08-24 19:51:06 · 1226 阅读 · 0 评论