ML
zhhu
这个作者很懒,什么都没留下…
展开
-
机器学习入门资料
机器学习、深度学习的理论与实战入门建议整理机器学习、深度学习的理论与实战入门建议整理http://blog.csdn.net/zyj098765/article/details/52860183http://blog.csdn.net/zyj098765/article/details/52860183作者:muzhi作者:muzhi目录目录引言引言阶段一.机器学习入门阶段一.机器学习入门阶段二....转载 2018-05-15 17:15:11 · 355 阅读 · 0 评论 -
机器学习常用的损失函数和评估指标
损失函数:http://www.csuldw.com/2016/03/26/2016-03-26-loss-function/评价指标:https://zhuanlan.zhihu.com/p/36305931转载 2019-03-25 09:59:18 · 870 阅读 · 0 评论 -
LightGBM调参攻略
调参:https://www.cnblogs.com/bjwu/p/9307344.html论文:https://zhuanlan.zhihu.com/p/42939089转载 2019-02-21 22:29:43 · 967 阅读 · 0 评论 -
Kaggle kernels使用教程
https://blog.csdn.net/Crapefruit/article/details/84897898转载 2019-02-21 22:28:42 · 3583 阅读 · 0 评论 -
极大似然估计
简述假设有m个样本,这m个样本服从某种概率分布且独立同分布,但是决定这一概率分布的参数是未知的,极大似然估计就是对这些参数进行估计使得总体样本发生的可能性最大。操作先对单个样本发生的概率进行建模然后根据独立同分布的条件对m个样本发生的概率进行建模,即连乘最后根据2中的式子求的参数最优解,常见的优化方法就是求梯度参考[1] https://blog.csdn.net/z...原创 2019-01-14 19:27:57 · 198 阅读 · 0 评论 -
随机森林模型的原理
随机森林模型是集成模型的一种,它是由众多决策树集成得到的。背景当我们使用决策树模型的时候,会很容易发现它是易于过拟合的,对于决策树的过拟合有很多处理方法,譬如各种剪枝技术,而集成技术同样能够处理这一问题。我们通过集成技术生成各种不同的决策树,并综合考虑它们的预测结果,这样能够减少过拟合的出现机率。所以我认为训练随机森林模型的关键就在于如何产生不同形态的决策树。 Bootstrap采...原创 2019-01-01 14:46:09 · 9573 阅读 · 0 评论 -
Mac下用conda命令安装xgboost
在命令行输入,conda install py-xgboost直接安装原创 2019-01-04 22:09:18 · 2274 阅读 · 1 评论 -
求超平面的法向量
原创 2018-12-30 14:59:43 · 1762 阅读 · 1 评论 -
SVC调参
在sklearn的SVC函数中,有两个非常重要的超参数:gamma和C其中C = 1/alpha,C越大,表示正则化效果越弱,模型越复杂,容易过拟合;C越小,表示正则化效果越强,模型越简单,容易欠拟合;gamma是kernel=‘rbf’时自带的参数,公式表现为原创 2018-12-18 21:39:27 · 3854 阅读 · 0 评论 -
为什么查看数据是重要的?
1. 可能会注意到数据丢失或有噪声,或者不一致,例如用于列的错误数据类型,或者没有足够的特定类示例。2. 查看每个特征的数据分布,可以帮助我们选择数据预处理的方式3. 有些问题不需要借助机器学习模型就可以解决...原创 2018-12-16 21:24:42 · 512 阅读 · 0 评论 -
模型评估
1. 了解为什么仅仅准确性不足以获得更完整的分类器性能图2. 了解机器学习中各种评估指标的动机和定义,以及如何解释使用给定评估指标的结果3. 使用适合给定任务的特定评估指标优化机器学习算法Accuracy的不足accuracy = # correct predictions / # total instances在正负样本平衡的分类任务中,正确率是可以评估模型表现的;但是在...原创 2018-12-20 10:05:43 · 249 阅读 · 0 评论 -
Sklearn模型应用场景
Sklearn常见模型knn:简单有效,适合作为基准模型,当数据量大时计算量会非常大,并且耗费内存linearRegression: 运用最小二乘法实现的线性模型,当数据量大时计算效率不高lasso: 添加L1正则化的线性模型,易获得权重的稀疏解,用于筛选特征ridge: 添加L2正则化的线性模型,易获得权重的平滑解poly: 多项式回归,容易过拟合,必须配合正则化使用lo...原创 2018-12-20 09:55:26 · 1277 阅读 · 0 评论 -
为什么L1正则化比L2正则化更容易获得稀疏解
先说结论,通过L1正则化更容易获得稀疏的w解,通过L2正则化更容易获得平滑的w解以下解释来自于知乎https://www.zhihu.com/question/37096933转载 2018-12-19 16:28:16 · 2046 阅读 · 0 评论 -
Sklearn学习
朴素贝叶斯1、sklearn.naive_bayes.GaussianNB(priors=None),高斯朴素贝叶斯,主要用于连续值特征分类priors: 类的先验概率,默认是None,可以不传递,算法内部会帮我们计算;如果指定了,算法内部就不会计算而是使用我们给的先验概率分类器具有的属性:clf.class_prior_: 每个类的先验概率clf.class_count_: ...原创 2018-11-28 20:34:59 · 907 阅读 · 0 评论 -
Mac下anaconda使用
Anaconda环境的创建 conda create -n py3 python=3.5其中py3表示创建环境的名字,后面python=3.5表示创建的版本。conda create -n py3 python=3.5 numpy pandas这个是在创建环境的时候同时安装包Anaconda环境的激活source activate py3py3为环境名,上述表示激活p...原创 2018-10-10 19:34:00 · 387 阅读 · 0 评论 -
概率论知识点
1. 概率分布https://zhuanlan.zhihu.com/p/268105662.期望、方差、协方差及相关系数的基本运算https://blog.csdn.net/touristman5/article/details/562818873. 假设检验https://support.minitab.com/zh-cn/minitab/18/help-and-how-t...转载 2019-03-26 21:56:22 · 889 阅读 · 0 评论