Machine Learning
文章平均质量分 91
听挽风讲大数据
只有不断地分享,才能更好地掌握。
展开
-
pandas的使用
pandas的使用pandas读出的数据为dataframe,dataframe的每一列为series,series中的值为ndarray。所以pandas是基于numpy封装的对数据进行处理的包。1.pandas读取csv文件,以及数据类型说明。import pandasfood_info = pandas.read_csv("food_info.csv")print(type(foo...原创 2018-12-19 18:43:58 · 253 阅读 · 0 评论 -
降维算法之LDA及其实战
1.LDA介绍      LDA(全称:Linear Discriminant Analysis,中文名称:线性判别分析)是一种有监督学习的降维技术,也就是说它的数据集的每个样本是有类标签的。Ronald A. Fisher在1936年提出了线性判别方法。   &a原创 2019-01-06 21:42:52 · 2018 阅读 · 0 评论 -
支持向量机(SVM)
支持向量机(SVM)1.定义      支持向量机是一种二分类模型。他的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算...原创 2019-01-02 15:47:33 · 199 阅读 · 0 评论 -
降维算法之PCA及其实战
      主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。为什么说PCA应用广泛呢?PCA是一种无监督算法,也就是我们不需要标签也能对数据做降维,这就使得其应用范围更加广泛了。一般我们提到降维最容易想到的算法就是PCA,...原创 2019-01-07 16:36:51 · 1344 阅读 · 0 评论 -
神经网络理论
神经网络是由具有适应性的简单单元组成的广泛并互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。0.简单介绍 在机器学习和认知科学领域,人工神经网络(artificial neural network,缩写ANN),简称神经网络(ne...原创 2019-01-24 18:10:49 · 1640 阅读 · 1 评论 -
GBDT算法理论
1.GBDT简介      梯度提升树(Gradient Boosting Decison Tree, GBDT)是集成学习boosting家族的成员,却和传统的Adaboost有很大的不同。回顾下Adaboo原创 2019-01-14 18:12:52 · 251 阅读 · 0 评论 -
KNN算法理论
1.KNN算法简介 K近邻法(k-nearest neighbor,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用,就是“物以类聚,人以群分”。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类,也可以做回归,这点和决策树...原创 2019-01-19 20:51:13 · 3991 阅读 · 1 评论 -
GBDT实战
1.GBDT函数的参数 (1)n_estimators: 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数。一般来说n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,一般选择一个适中的数值。默认是100。在实际调参的过程中,我们常常将n_estimators和下面介绍的参数learn...原创 2019-01-14 21:33:09 · 806 阅读 · 0 评论 -
神经网络实战
1. MLPClassifier参数设置(1)hidden_layer_sizes :例如hidden_layer_sizes=(50, 50),表示有两层隐藏层,第一层隐藏层有50个神经元,第二层也有50个神经元。(2)activation :激活函数,{‘identity’, ‘logistic’, ‘tanh’, ‘relu’}, 默认reluidentity:f(x) = xlo...原创 2019-01-24 22:46:16 · 1643 阅读 · 0 评论 -
KNN实战
1.sklearn中相关类库概述 在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中。KNN分类树的类是KNeighborsClassifier,KNN回归树的类是KNeighborsRegressor。除此之外,还有KNN的扩展,即限定半径最近邻分类树的类RadiusNeighborsClassifier和限定半径最近邻回归树的类Radiu...转载 2019-01-20 20:01:27 · 692 阅读 · 0 评论 -
CART回归树及其实战
1.CART简介 分类与回归树(classification and regression tree,CART)模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法。CART同样由特征选择而、树的生成及剪枝组成,既可以用于分类也可以用于回归。2.基本概念 &nb...原创 2019-01-09 22:10:56 · 5075 阅读 · 1 评论 -
XGBoost理论
1.集成算法思想       看上面一个图例左边:有5个样本,现在想看下这5个人愿不愿意去玩游戏,这5个人现在都分到了叶子结点里面,对不同的叶子结点分配不同的权重项,正数代表这个人愿意去玩游戏,负数代表这个人不愿意去玩游戏。所以我们可以通过叶子结点和权值的结合,来综合的评判当前这个人到底是愿意还是不愿意去玩游戏。上面「tree1」那个...原创 2019-01-15 22:03:37 · 197 阅读 · 0 评论 -
Adaboost实战
1.sklearn参数说明 sklearn中给出Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor。 1)base_estimator:AdaBoostClassifier和AdaBoostRegre...原创 2019-01-10 23:21:44 · 1011 阅读 · 0 评论 -
Adaboost算法理论
1.提升(boosting)方法      提升方法是一种常见的统计学习方法,应用广泛且有效,在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。&am原创 2019-01-10 23:09:21 · 336 阅读 · 0 评论 -
回归算法理论推导
回归算法理论推导一、线性回归1.定义:线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。2.例子(1)说明数据:工资和年...原创 2018-12-20 22:48:54 · 328 阅读 · 0 评论 -
决策树
决策树1.定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点和有向边组成。节点有两种类型:内部结点和叶结点,内部结点表示一个特征或属性,叶结点表示一个类。用决策树分类,从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其叶子节点;这时,每一个子结点对应着该特征的一个取值,如此递归地对实例进行测试并分配,知至达到叶结点。最后将实例分配到叶结点的类中。2.树模型...原创 2018-12-26 20:57:59 · 843 阅读 · 0 评论 -
梯度下降求解逻辑回归实战篇
梯度下降求解逻辑回归1.数据    &amp原创 2018-12-21 21:20:22 · 2981 阅读 · 1 评论 -
Numpy的使用
Numpy的使用1.numpy读取文件。#delimiter为分隔符world_alcohol = np.genfromtxt('world_alcohol.txt',delimiter = ',')print(type(world_alcohol))输出结果:<class ‘numpy.ndarray’>2.numpy.array能够将把一个list或多个list作为输...原创 2018-12-18 13:46:00 · 693 阅读 · 1 评论 -
机器学习案例实战之信用卡欺诈检测(逻辑回归)
机器学习案例实战之信用卡欺诈检测1.实战案例背景:这是一份个人交易记录,因为其中涉及到了隐私的内容,进行了类似PCA的处理,我们的数据已经把特征数据提取出来了,接下来,通过逻辑回归进行检测。2.拿到数据千万不要忙着去建立模型,一定要先观察数据import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matp...原创 2018-12-24 13:30:14 · 4937 阅读 · 0 评论 -
SVM调参实例
SVM调参实例1.随机生成一些数据%matplotlib inlineimport numpy as npimport matplotlib.pyplot as pltfrom scipy import stats# use seaborn plotting defaultsimport seaborn as snssns.set()# 随机生成一些数据from sklearn...原创 2019-01-03 21:13:37 · 5917 阅读 · 1 评论 -
集成学习与实战
集成学习1.目的:让机器学习效果更好,单个不行,群殴走起。2.集成学习分类&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;Bagging:训练多个分类器取平均f(x)=1M∑m=1Mfm(x)f\left( x \right)=\frac{1}{M}\sum\limits_{m=1}^{M}{{{f}_{m}}\left( x \rig原创 2018-12-29 17:32:31 · 1138 阅读 · 0 评论 -
K-means聚类以及利用K-means来压缩图像
K-means聚类算法1.聚类概念&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;聚类属于无监督学习(无类别标签)。聚类就是相似的东西分到一组。2.K-means基本概念&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&am原创 2019-01-04 16:43:11 · 3717 阅读 · 0 评论 -
DBSCAN聚类算法
DBSCAN算法1.基本概念 核心对象:若某个点的密度达到算法设定的阈值则其为核心点。(即 邻域内点的个数不少于minPts) ε\varepsilonε邻域的距离阈值:设定的半径ε\varepsilonε。 原创 2019-01-04 22:49:46 · 30806 阅读 · 6 评论 -
贝叶斯
贝叶斯1.贝叶斯要解决的问题&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;&amp;amp;amp;nbsp;正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出的黑球的概率是多大?&amp;amp;amp;nbsp;&amp;a原创 2018-12-31 18:07:16 · 245 阅读 · 0 评论 -
Kmeans和DBSCAN聚类算法实战
1.问题描述&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;对beer数据集进行分簇。①针对于Kmeans方法,首先将数据集分成2个和3个簇,查看一下结果;然后对数据集的特征进行标准化,对比了为标准化的结果;最后通过设置不同的簇的数量,来查看聚类效果。②针对于DBMSAN方法,通过设置不同的eps邻域半径和核心对象最小的阈值min_samples两个参数的值,来观察聚类效...原创 2019-01-05 14:15:29 · 3307 阅读 · 4 评论 -
XGBoost实战
1.XGBoost参数1.1常规参数General Parameters booster[default=gbtree]:选择基分类器,可以是:gbtree,gblinear或者dart。gbtree和draf基于树模型,而gblinear基于线性模型。  ...原创 2019-01-16 21:38:53 · 2673 阅读 · 0 评论