一元二肆-CSDN博客

原创常用的特征工程方法.梯度下降法个牛顿法的比较

目录1.常用的特征工程方法都有哪些，举例说明2.梯度下降法和牛顿法的比较3.xgboost算法过程推导特征工程1.定义:数据是信息的载体，但是原始的数据包含了大量的噪声，信息的表达也不够简练。因此，特征工程的目的，是通过一系列的工程活动，将这些信息使用更高效的编码方式（特征）表示。使用特征表示的信息，信息损失较少，原始数据中包含的规律依然保留。此外，新的编码方式还需要尽量减少原始数据中...

2019-11-14 22:32:01 319

原创决策树的ID3算法及缺陷,损失函数;条件熵与信息增益的关系

树模型是机器学习中非常常用的一种算法，既可以处理分类问题，也可以处理回归问题，更多的时候是用来处理分类问题的,下面就主要介绍有关于决策树的一些内容.简介决策树熵条件熵信息增益决策树的算法ID3算法损失函数一.决策树定义：是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果，本质是一颗由多个判断...

2019-11-12 20:31:20 1842

原创机器学习中SVM的损失函数,向量积

SVM即支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane)。简介SVM的损失函数损失函数SVM中的损失函数...

2019-11-11 19:22:39 1996

原创离散化,特征归一化,变量编码方式,cut与qcut

机器学习中,离散化,特征归一化等等,这些都是很重要的数据处理方式,所以在这里进行简单的解释我的理解.简介离散化为什么离散化离散化的优势特征归一化标准化变量编码方式cut与qcut离散化定义:离散化，把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。例如：原数据：...

2019-11-10 17:02:19 754

原创最小二乘,最大似然,最大后验,查准率与查全率

最小二乘,最大似然,都带有最字,那他们之间有什么关系呢?一.最大似然定义:最大似然估计(maximum likelihood estimation, MLE)一种重要而普遍的求估计量的方法.最大似然法明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树通俗的认为,多次观测到的结果就是可能发生的结果,也就是观察样本概率最大的参数就是整体分布的参数简单的理解一下它的...

2019-11-07 19:20:47 429

原创过拟合特征值特征向量

过拟合,欠拟合一.什么是过拟合,欠拟合1.过拟合:对训练集特征的过度学习,仅仅适合此训练集,在泛化使用的时候不能用于其他的数据集判断.2.欠拟合:对于训练集特征学习的欠缺,同样不适用于其他数据集的判断.用一个表格来解释过拟合,欠拟合训练集上的表现测试集上的表现结论不好不好欠拟合好不好过拟合好好适度拟合二.过拟合的产生训练集的数量...

2019-11-06 19:09:41 424

原创机器学习梯度下降

保存图像#导入相应的库import numpy as npimport osimport matplotlib.pyplot as plt%matplotlib inline#随机种子np.random.seed(42)#保存图像PROJECT_ROOT_DIR ='.'MODEL_ID ='linear_models'def save_fig(fig_id, tigh...

2019-11-05 18:19:42 194

原创机器学习算法(一)

机器学习基础内容机器学习的定义为了解决任务T,设计一段程序,从经验E中学习，达到性能度量值Ｐ，当且仅当有了经验E后，经过P评判没程序在处理T时的性能得到提升机器学习的分类1.有监督学习 (带答案数据):回归 ,分类2.无监督学习 (无答案数据):聚类,降维3.强化学习 :有模型学习,无模型学习分类问题样本标签属于离散变量,比如判断垃圾邮件,肿瘤检测回归问题样本标签属于连...

2019-11-04 23:35:30 212

TENapples的博客