![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
小小小读书匠
这个作者很懒,什么都没留下…
展开
-
机器学习系列十九:sklearn-GridSearchCV
一、简介GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。Rand...原创 2019-11-13 22:36:19 · 1975 阅读 · 0 评论 -
机器学习项目基础篇:Kaggle Titantic 生存预测比赛
https://zhuanlan.zhihu.com/p/30538352https://mp.weixin.qq.com/s/86Wym8HFc55BnWN3qSMWwAhttps://mp.weixin.qq.com/s/FQjPrlshRvbJQoudY8hgyAhttps://mp.weixin.qq.com/s/rEMJrVx3nPURX6uSKfrzsAhttps://...原创 2019-10-27 22:30:12 · 548 阅读 · 0 评论 -
机器学习系列十五:集成学习之boosting:Adaboost
一.算法原理Boosting的思路则是采用重赋权(re-weighting)法迭代地训练基分类器,即对每一轮的训练数据样本赋予一个权重,并且每一轮样本的权值分布依赖上一轮的分类结果;基分类器之间采用序列式的线性加权方式进行组合。他通过迭代地训练一系列的分类器,每个分类器采用的样本分布都和上一轮的学习结果有关。1.Adaboosthttps://blog.csdn.net/u012258...原创 2019-10-14 22:30:39 · 359 阅读 · 0 评论 -
机器学习系列十:线性回归
一、算法原理线性回归作为监督学习中经典的回归模型之一。1.模型定义线性回归需要学习得到的是一个映射关系 ,即当给定新的待预测样本时,我们可以通过这个映射关系得到一个测试样本的预测值 。例如当特征向量中只有一个特征时,需要学习到的函数应该是一个一元线性函数 。当情况复杂时,考虑 存在n个特征的情形下,我们往往需要得到更多地系数。我们将 到的映射函数记作函数:其中,为了在映射...原创 2019-01-09 15:46:18 · 608 阅读 · 0 评论 -
机器学习项目入门篇:一个完整的机器学习项目
本部分,我们会作为被一家地产公司雇佣的数据科学家,完整地学习一个项目。下面是主要步骤:项目概述。 获取数据。 发现并可视化数据,发现规律。 为机器学习算法准备数据。 选择模型,进行训练。 微调模型。 给出解决方案。 部署、监控、维护系统。一、项目概述任务是利用加州普查数据,建立一个加州房价模型。这个数据包含每个分区组的人口、收入中位数、房价中位数等指标。分区组是美国调查局发...原创 2019-01-16 10:23:12 · 23299 阅读 · 17 评论 -
目录
C++面试C++面试总结(一)常用关键字C++面试总结(二)类C++面试总结(三)模板与泛型编程C++面试总结(四)标准库C++面试总结(五)C++ 11/14新特性C++面试总结(六)杂记Python之旅Python之旅(一)知识点总结Python之旅(二)面试题总结机器学习系列一、机器学习基础篇机器学习系列一:Numpy机器学习系列二:Pan...原创 2019-01-16 20:46:08 · 539 阅读 · 0 评论 -
机器学习系列十二:支持向量机(SVM)
一、算法原理支持向量机是最大化分类间隔的线性分类器,使用核函数可以解决非线性问题。1.数学建模(1)决策面方程(2)分类间隔方程(3)约束条件(4)线性SVM优化问题描述(5)拉格朗日函数(6)KKT条件(7)对偶问题求解(8)SMO算法2.松弛向量与软间隔最大化3.核函数4.多类分类之SVM关于SVM的原理,已经有很多优秀的博客,不再重复造...原创 2019-01-16 21:31:35 · 789 阅读 · 4 评论 -
机器学习系列十三:数据降维
一、算法原理降维方法一般分为线性降维方法和非线性降维方法,如下图所示:我们主要主要介绍PCA、LDA、LLE方法。1.PCA主成分分析(PCA)是另一种常用的数据降维方法,它属于无监督学习算法。PCA旨在找到数据的主成分,并利用这些主成分表征原始数据,从而达到降维的目的。(1)PCA的推导1)最大方差理论在信号处理领域,我们认为信号具有较大方差,噪声具有较小方差,信号与...原创 2019-02-13 15:19:41 · 2207 阅读 · 0 评论 -
机器学习系列十四:集成学习之bagging
一、算法原理1.算法描述Bagging是Bootstrap AGGregatING的缩写。Bagging基于自助采样法(bootstrap sampling)。给定包含m个样本的数据集,先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中。这样,经过m次随机采样操作,我们得到含m个样本的采样集,初始训练集中有的样本再采样集里多次出现,有的则从未出现。...原创 2019-05-06 21:05:07 · 926 阅读 · 0 评论 -
机器学习系列五:机器学习基础
一、算法分类1.分类算法与回归算法2.判别模型与生成模型二、模型评价1.混淆矩阵2.ROC曲线三、模型选择1.偏差与方差2.过拟合和欠拟合3.正则化...原创 2019-01-02 10:31:42 · 204 阅读 · 0 评论 -
机器学习系列十一:逻辑回归
一、算法原理Logistic回归是众多分类算法中的一员。Logistic回归即对数概率回归,它的名字虽然叫“回归”,但却是一种用于二分类问题的分类算法,它用sigmoid函数估计出样本属于某一类的概率。1.Logistic函数(Sigmoid函数)(1)Sigmoid的函数形式为:(2)sigmoid函数求导sigmoid导数具体的推导过程如下:2.构造预测函数...原创 2019-01-13 21:21:49 · 1020 阅读 · 0 评论 -
Python数据全栈工程师
版权声明:本文为博主原创文章,转载请注明来源。开发合作联系luanpenguestc@sina.com https://blog.csdn.net/luanpeng825485697/article/details/78347433 </div> <div id="conten转载 2019-01-03 16:35:28 · 341 阅读 · 0 评论 -
机器学习系列一:Numpy
一、numpy概述numpy(Numerical Python)提供了python对多维数组对象的支持:ndarray,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。二、创建ndarray数组ndarray:N维数组对象(矩阵),所有元素必须是相同类型。 ndarray属性:ndim属性,表示维度个数;shape...原创 2018-12-25 11:40:20 · 576 阅读 · 1 评论 -
机器学习系列三:Matplotlib
Matplotlib是Python中最常用的可视化工具之一,可以非常方便地创建海量类型地2D图表和一些基本的3D图表。因为在函数的设计上参考了MATLAB,所以叫做Matplotlib。 一.matplotlib API入门matplotlib的通常引入约定: import matplotlib.pyplot as plt1.Figurematplotlib的图像都位于...原创 2019-01-01 14:33:56 · 390 阅读 · 0 评论 -
机器学习系列四:数学基础
站在巨人的肩膀上!本部分每个知识点分享比较好的博客,若侵权就删了。一、微积分1.导数2.偏导数与梯度3.泰勒公式https://blog.csdn.net/IOThouzhuo/article/details/50512966https://blog.csdn.net/fengser/article/details/50600712二、线性代数https://b...原创 2019-01-01 19:14:49 · 259 阅读 · 0 评论 -
机器学习系列七:朴素贝叶斯
一、算法原理贝叶斯公式描述了两个相关的随机事件或随机变量之间的概率关系。贝叶斯分类器使用贝叶斯公式计算样本属于某一类的条件概率值,并将样本判定为概率值最大的那个类。贝叶斯公式为:我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability),即在B事...原创 2019-01-02 17:17:21 · 502 阅读 · 0 评论 -
机器学习系列八:K近邻算法(KNN)
一、算法原理k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。本书只讨论分类问题中的k近邻法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。k近邻法不具有显式的学习过程。k近邻法实际上利用训练...原创 2019-01-07 15:31:14 · 1303 阅读 · 0 评论 -
机器学习系列九:决策树
一、算法原理决策树( decision tree) 是一种基本的分类与回归方法。决策树学习通常包括3个步骤: 特征选择、 决策树的生成和决策树的修剪。1.特征选择(1)熵熵是无序度的度量,在信息论和统计中,熵表示随机变量不确定性的度量。假设X是一个取有限值的离散型随机变量,它的概率分布如下: 则随机变量X的熵定义为: 若=0,定义0log0 = 0。从上...原创 2019-01-07 16:10:05 · 752 阅读 · 0 评论 -
机器学习系列六:sklearn库
一、简介Scikit learn 也简称 sklearn, 是机器学习领域当中最知名的 python 模块之一.。Sklearn 包含了很多种机器学习的方式:Classification 分类 Regression 回归 Clustering 非监督分类 Dimensionality reduction 数据降维 Model Selection 模型选择 Preprocess...原创 2019-01-03 14:47:32 · 383 阅读 · 0 评论 -
机器学习系列二:Pandas
一、pandas概述pandas :pannel data analysis(面板数据分析)。pandas是基于numpy构建的,pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。为时间序列分析提供了很好的支持。pandas中有两个主要的数据结构,一个是Series,另一个是DataFrame。import pandas as pdfrom pa...原创 2018-12-26 17:07:27 · 570 阅读 · 0 评论