scikit
饮马长城窟
这个作者很懒,什么都没留下…
展开
-
sklearn线性回归及原理介绍
1 一次线性回归 误差服从均值为0方差为θ2的高斯分布 损失函数,用于定义和衡量模型的误差,实际点到预测平面的垂直距离。 如何评价模型? 决定系数 R方 ,衡量数据和回归线的贴近程度。 r*2=LinearRegression().score(test_x,test_y) 1.2代码实现方式 import pandas as pd import numpy...原创 2020-06-10 15:33:25 · 1073 阅读 · 0 评论 -
集成算法与随机森林简介
集成算法的种类: 第一种,随机森林模型 随机森林的优势: ①能够处理很高维度的数据,不用做特征选择。 ②训练完之后可以给出哪些feature比较重要 ③容易做成并行化方法,速度较快 ④可视化展示。 第二种: Boosting模型。 串行模式 从弱学习期开始加强,通过加权来进行训练。 典型代表:AdaBoost ,Xgboost Ada boost会根据前一次的分...原创 2020-06-17 11:49:42 · 385 阅读 · 0 评论 -
决策树模型及scikit实现
一 基本概念: 根节点: 第一个选择点 叶子节点: 最终的决策结果 非叶子节点和分支:中间过程 熵:来源于化学的概念,随机变量的不大确定性的度量。不确定性越大,熵越大。计算公式 比如,一枚硬币投掷一次,正负的概率都是0.5 ,那么熵计算公式: H(x)=-(0.5log2 0.5+0.5log2 0.5)=1.0 信息增益:熵减少的量。 父节点熵-(子节点的熵的加权平均...原创 2019-12-02 22:14:09 · 271 阅读 · 2 评论