machain_learning
文章平均质量分 75
doulinxi115413
这个作者很懒,什么都没留下…
展开
-
kMeans算法
1. 归类: 聚类(clustering) 属于非监督学习 (unsupervised learning) 无类别标记(class label)2. 举例:3. K-means 算法: 3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一 3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的...翻译 2018-03-22 15:28:32 · 211 阅读 · 0 评论 -
机器学习面试题
https://blog.csdn.net/a2524289/article/details/788884801.支持向量机(SVM)的优缺点:VM的优缺点优点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在S...翻译 2019-02-20 19:57:57 · 16758 阅读 · 1 评论 -
线性回归与逻辑回归
回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种。线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率,工业界经常会用逻辑回归来做排序。在SVM、GBDT、AdaBoost算法中都有涉及逻辑回归,回归中的损...转载 2018-05-25 14:43:45 · 636 阅读 · 0 评论 -
k-fold cross validation(k-折叠交叉验证),python pandas (ix & iloc &loc) 的区别
交叉验证的目的:在实际训练中,模型通常对训练数据好,但是对训练数据之外的数据拟合程度差。用于评价模型的泛化能力,从而进行模型选择。交叉验证的基本思想:把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对模型进行训练,再利用验证集来测试模型的泛化误差。另外,现实中数据总是...原创 2018-05-25 09:55:12 · 6763 阅读 · 3 评论 -
朴素贝叶斯法
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关。思想1)输入空间:X∈RnX∈Rn 为nn 维向量空间的集合。输出空间为分类标记空间 Y=c1,c2...ckY=c1,c2...ck。 训练集T=(x1,y1),(x2,y2)...(xN,yN)T=(x1,y1),(x2,y2)...(xN,yN)是由独立同分布的概率函数p...转载 2018-05-21 09:20:57 · 340 阅读 · 0 评论 -
决策树、Bagging、随机森林、Boosting、AdaBoost、GBDT、XGBoost
1、决策树 一、决策树的优点和缺点 优点:决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解, 决策树模型可以可视化,非常直观 应用范围广,可用于分类和回归,而且非常容易做多类别的分类 能够处理数值型和连续的样本特征 缺点:很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高...翻译 2018-05-20 22:39:27 · 5218 阅读 · 0 评论 -
kaggle比赛
Titanic Data Science SolutionsI have released a new Python package Speedml which codifies the techniques used in this notebook into an intuitive, powerful, and productive API.Speedml helps me jump fro...转载 2018-04-04 23:39:04 · 1041 阅读 · 0 评论 -
机器学习之k-近邻
1. K近邻定义k近邻算法,也成为KNN算法,是一种基本分类与回归算法。它在基本实现上,使用的是多数表决的惰性学习过程。也就是它实际上是基于记忆的学习方法。它并没有学出一个什么判别模型,其实也没有像贝叶斯那样算出一个新东西,而是简单的统计距离目标点最近的K个节点里数目最多的标签赋予目标点。就是这么一个简单的算法。我们这里给出一个最朴素的K近邻算法: K近邻算法 输入:训练数据集T=(x1,y1),...转载 2018-04-16 15:58:11 · 684 阅读 · 0 评论 -
机器学习之感知机
感知机模型是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法,具有简单而易于实现的优点,分为原始形式与对偶形式。感知机预测是用学习得到...翻译 2018-04-15 21:01:38 · 453 阅读 · 0 评论 -
分层聚类(hierarchical clustering)
假设有N个待聚类的样本,对于层次聚类来说,步骤: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度; 2、寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个); 3、重新计算新生成的这个类与各个旧类之间的相似度; 4、重复2和3直到所有样本点都归为一类,结束 整个聚类过程其实是建立了一棵树,在建立...翻译 2018-03-21 20:17:00 · 16437 阅读 · 1 评论 -
java面试总结
https://www.cnblogs.com/aishangJava/p/9865925.html一、Set集合。其主要实现类有HashSet、TreeSet。存放对象的引用,不允许有重复对象。 代码: public class SetTest { public static void main(String[] args) { Set set=n...转载 2019-02-20 19:57:41 · 232 阅读 · 0 评论