机器学习
Dxy17
welcome:future
展开
-
机器学习一:线性回归 (Linear Regression)
1.基本问题线性回归属于有监督的算法,用来做回归预测。在实际的有监督回归问题中,我们通过拟合系数 的线性模型,以最小化数据集中观察到的响应y与线性近似预测的响应之间的残差平方和。我们的目标便是选择出可以使得残差平方和最小的模型参数,即得到代价函数表达方式:(1)单变量线性回归(因为只含有一个特征/输入变量)其中,是此线性模型的参数,是输入变量,是样本个数,是真实值。(2...原创 2018-10-19 17:31:35 · 512 阅读 · 0 评论 -
矩阵低秩
低秩矩阵还记得我们怎么手工求矩阵的秩吗?为了求矩阵A的秩,我们是通过矩阵初等变换把A化为阶梯型矩阵,若该阶梯型矩阵有r个非零行,那A的秩rank(A)就等于r。从物理意义上讲,矩阵的秩度量的就是矩阵的行列之间的相关性。如果矩阵的各行或列是线性无关的,矩阵就是满秩的,也就是秩等于行数。回到上面线性方程组来说吧,因为线性方程组可以用矩阵描述嘛。秩就表示了有多少个有用的方程了。上面的方程组有3个方程...转载 2019-01-18 22:08:33 · 2537 阅读 · 1 评论 -
集成学习--随机森林
目录集成学习、个体学习器的概念Boosting bagging结合策略随机森林思想随机森林推广随机森林的优缺点Sklearn中随机森林参数分类sklearn代码实现应用场景参考集成学习、个体学习器的概念(1)集成学习(ensemble learning)是通过构建并结合多个学习器(个体学习器或弱学习器)来完成任务(分类,回归等),集成学习通常可以获得...原创 2019-01-26 15:43:42 · 1920 阅读 · 4 评论 -
集成学习--XGB
目录 算法原理与损失函数分裂节点算法缺失值处理优缺点应用场景Sklearn参数参考算法原理与损失函数如果不考虑工程实现、解决问题上的一些差异,xgboost与gbdt比较大的不同就是目标函数的定义。首先明确下我们的目标,希望建立K个回归树,使得树群的预测值尽量接近真实值(准确率)而且有尽量大的泛化能力(更为本质的东西),从数学角度看这是一个泛函最优化,多目标...原创 2019-02-01 20:21:24 · 402 阅读 · 0 评论 -
集成学习--Gradient Boosting Decison Tree(GBDT)梯度提升树
GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树,属于集成学习中的boosting算法,但是和boosting中的典型算法Adaboost有很大的不同。Adaboost是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,无论是处理回归问题还是二分类...原创 2019-01-29 21:49:27 · 507 阅读 · 0 评论 -
数据挖掘项目__数据分类
此次分类任务用到的数据集是上次用到的金融数据并预测贷款用户是否会逾期,主要用sklearn中的几个分类方法来对预处理之后的数据进行分类。1.Logistic RegressionLogistic Regression名称上面有一个回归但其实是一个分类方法,主要用于二分类问题,是通过建立一个损失函数,然后通过优化方法迭代求解出最优的模型参数,最后测试验证我们这个求解的模型的好坏。主要用到...原创 2019-03-05 21:03:11 · 1421 阅读 · 1 评论 -
达观杯文本智能挑战赛一(数据读取,分训练测试集)
1.数据竞赛介绍:参赛者需要根据达观竞赛提供的脱敏文本数据,实现精准分类2.数据集介绍数据集分为训练集和测试集(无label)。其中训练集大小为(102277, 4),测试集大小为(102277, 3)训练集的column包括:Index(['id', 'article', 'word_seg', 'class'], dtype='object')import pan...原创 2019-04-05 21:21:45 · 770 阅读 · 3 评论 -
李航_统计学习(4)朴素贝叶斯法
介绍朴素贝叶斯法(naive Bayes)是基于贝叶斯定理和特征条件独立假设的分类方法。特征条件独立是一个假设,“朴素”也由此而来。对于给定的训练数据集,首先基于特征条件独立假设学习输入X和输出Y的联合概率分布P(X,Y);然后基于此模型,对给定的x利用贝叶斯定理求出后验概率最大的输出y。书中说此方法实现简单,学习与预测的效率很高,是一种常用的方法。朴素贝叶斯法的学习与分类...原创 2019-04-15 09:06:29 · 250 阅读 · 0 评论