![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
HonourXin
这个作者很懒,什么都没留下…
展开
-
数据库常见问题
https://www.cnblogs.com/wenxiaofei/p/9853682.html 数据库常见问题https://www.cnblogs.com/takumicx/p/9998844.html 事务的理解5.SQL语言分类SQL语言共分为四大类:数据查询语言DQL数据操纵语言DML数据定义语言DDL数据控制语言DCL。https://www.cnblogs.com/yanqb/p/10751348.html 数据库优化1.对查询进行优化,要尽量避免全表扫描,首先.原创 2020-12-16 12:24:53 · 302 阅读 · 0 评论 -
SVM面试
SVM 原理SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加了之后才会升级为一个非线性模型):当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机;当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。注:以上各SVM的数学推导应该熟悉:硬间隔.原创 2020-10-11 16:33:57 · 171 阅读 · 0 评论 -
树模型从决策树到RF再到XGB
1.决策树的理解:模型的不确定性降低的越快越好主要是ID3算法,C4.5算法和CART算法,其中ID3算法的评价指标是信息增益,C4.5算法的评价指标是信息增益率,CART算法的评价指标是基尼系数。CART是一棵二叉树,对分类和回归都适用,对于回归树用平方误差最小化,对分类树用基尼指数进行特征选择。分类时和ID3、C4.5类似;回归时会遍历变量j, 对固定的切分变量扫描切分点s,计算MSE,选择使得MSE最小的(j,s)对。CART之所以使用Gini指数是因为熵需要计算log,速度较慢2.信息增益原创 2020-09-22 23:19:46 · 268 阅读 · 1 评论 -
Bagging
key:bagging(集成学习)value:1.创建更多子模型,要保持子模型的差异性2.投票key:差异性value:每个子模型只看数据的一部分example:500个样本数据,每个子模型只看100个数据problem:只看数据的一部分的局限性会不会不准确answer:投票解决,模型越多。准确性越高key:如何创建差异性value:取样:放回/不放回example:500个...原创 2019-04-15 17:02:46 · 486 阅读 · 0 评论 -
随即森林/Extra-Tress/回归问题
随机森林key: 随机森林value:基模型 为Decision Tree 的Bagging 进一步增强随机性value: Decision Treevalue:最优维度、最优阈值更快的训练速度(不用最优化分)from sklearn.ensemble import RandomForestClassifierrf_clf = RandomForestClassifier(n_e...原创 2019-04-15 17:42:02 · 709 阅读 · 0 评论 -
AdaBoosting and Stacking
第一次没被拟合的点,增强学习基于同一组数据但是每个子模型认为的每个点的权重不同集成学习key:stackingvalue:神经网络,神经元为模型原创 2019-04-16 16:56:31 · 206 阅读 · 0 评论 -
panda用法
数据提取主要用到的三个函数:loc,iloc和ix,loc函数按标签值进行提取,iloc按位置进行提取,ix可以同时按标签和位置进行提取。1、按索引提取单行的数值df_inner.loc[3]2、按索引提取区域行数值df_inner.iloc[0:5]3、重设索引df_inner.reset_index()4、设置日期为索引df_inner=df_inner.set_index(...转载 2019-06-10 22:37:20 · 640 阅读 · 0 评论