机器学习
Asher117
大家好,我是Asher,热衷于研究数据分析、数据挖掘以及网络爬虫等。大家有问题的话,欢迎加我微信,一起学习-分享-成长,MyWechat:liu2536036458
展开
-
机器学习在癌症数据集上的应用实践
在本文中,我们一起学习如何将机器学习应用于癌症数据集。1.摘要支持向量机(SVM)是机器学习中最流行的有监督学习算法之一。许多研究人员都通过实践证明了该算法的优异性。SVM既可以应用于回归问题,也可以应用于分类问题,本文以癌症数据集为例,描述了SVM在分类问题上的应用。2.简介SVM算法的应用十分广泛,目前已经应用到医学研究,面部识别,垃圾邮件分类,文档分类,手写识别等方面。在医学研究领域,SVM已被从业人员应用于:白细胞分类癌症预测基因分类部分研究人员声称,SVM在这些研究方面比逻原创 2020-11-24 19:30:45 · 5040 阅读 · 3 评论 -
【Python】实现Bagged-pSVM
最近有人找我代写了一个Bagged-pSVM(Bagged-proportion SVM)算法,在实现过程中,感觉首先要理清代码实现的思路,最好能写出步骤,当知道每一步要干嘛,要达到什么样的效果之后,再进行代码编写,会轻松容易很多,这里总结一下Bagged-pSVM算法的流程,码字不易,喜欢请点赞!!!谢谢。(1)根据数据的某个属性R将样本划分到b个包里面(2)计算每个包里面的标签比例Pr(3)repeat for 1 to k 进行bootstrap方法采样,每次得到b个袋子的数据集原创 2020-07-10 13:45:54 · 335 阅读 · 0 评论 -
【Python】使用Scikit-Learn进行机器学习步骤介绍
目前Python作为主流的编程语言,其在实现各种机器学习算法方面也是十分的容易上手,这里介绍一下,使用Python的Scikit-Learn实现机器学习算法的主要步骤。首先机器学习算法分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。1.有监督学习是指对数据的若干特征与若干标签(类型)之间的关联性进行建模的过程;只要模型被确定,...原创 2019-02-21 10:24:30 · 1756 阅读 · 0 评论 -
【机器学习】十六、XGBoost算法原理讲解
之前文章分享了AdaBoost的算法原理和GBDT算法原理,这篇文章将讲解XGBoost,建议看本文之前,先看一下AdaBoost算法和GBDT算法的原理。码字不易,喜欢请点赞!!!目录1.XGBoost简介2.XGBoost损失函数2.1GBDT损失函数1.XGBoost简介XGBoost自从提出以来,可谓就开始广为流传,并且在kaggle竞赛中屡获佳绩。在机器学习的算法中,XGBoos...原创 2019-12-16 20:36:09 · 774 阅读 · 0 评论 -
【机器学习】十五、Gradient boosting算法原理详解
上篇文章分享了AdaBoost的算法原理,这篇文章将讲解Boosting家族中的梯度提升算法(Gradient boosting)。建议看本文之前,先看一下AdaBoost算法的原理。码字不易,喜欢请点赞!!!目录1.梯度提升算法简介2.GBDT回归3.GBDT分类4.GBDT优缺点1.梯度提升算法简介2.GBDT回归3.GBDT分类4.GBDT优缺点参考文献...原创 2019-12-14 15:10:40 · 7566 阅读 · 0 评论 -
【机器学习】十四、AdaBoost算法原理详解
集成学习主要包括Boosting(提升)和Bagging(袋装)两大类,本文主要分享Boosting类集成学习中的AdaBoost算法,会详细讲解AdaBoost的原理。码字不易,喜欢请点赞!!!目录1.提升算法的思路AdaBoost算法1.提升算法的思路俗话说的好,“三个臭皮匠,顶个诸葛亮”。提升方法就是基于这种思想的,对于任意一个复杂的问题,将多个专家的判断进行适当的综合所得到的判断,...原创 2019-12-13 10:02:08 · 1192 阅读 · 0 评论 -
【Python】sklearn中的cross_val_score()函数参数
sklearn 中的cross_val_score函数可以用来进行交叉验证,因此十分常用,这里介绍这个函数的参数含义。sklearn.cross_validation.cross_val_score(estimator, X, y=None, scoring=None,cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*...原创 2019-02-18 14:09:11 · 26624 阅读 · 3 评论 -
【Python】SVM实现数据分类案例(包含参数优化)
这是一篇机器学习岗位的笔试题,题目大概就是:给定了数据特征和数据标签(二分类),使用机器学习算法对数据进行分类,并优化两个重要的参数,计算AUC指标,画出参数优化和AUC指标变化图。本文选择的是SVM(支持向量机)来实现这一过程,SVM是非常强大、灵活的有监督学习的算法,既可以用于分类,也可以用于回归。实现过程:1.导入需要的包import pandas as pdimport num...原创 2019-06-06 12:29:25 · 26460 阅读 · 5 评论 -
Python实现SVM使用案例
最近一直在看文本挖掘这块儿,看了许多机器学习相关的资料,在这里做个笔记分享给大家,有供自己日后学习浏览。这篇推文主要介绍Python实现SVM的案例,后期会更新加强版。这里主要讲的是使用Python的Sklearn包实现SVM样本分类,而不包括SVM的理论推导,我在看SVM的理论的时候看了很多网上的博客,有很多都写的不错,这里推荐,July写的支持向量机通俗导论(理解SVM的三层境界),而...原创 2019-06-05 20:14:31 · 23235 阅读 · 3 评论 -
【机器学习】常见模型评估指标
【机器学习】中常见的模型评估指标在mmm个样本中,有α\alphaα个样本分类错误。1.错误率(error rate):E=α/mE = \alpha/mE=α/m2.精度(accuracy):1−α/m1-\alpha/m1−α/m...原创 2019-10-17 16:00:11 · 1308 阅读 · 0 评论 -
【机器学习】十三、一文看懂Bagging和随机森林算法原理
集成学习主要包括Boosting和Bagging两大类,本文主要分享第二类Bagging类集成学习,会讲解Bagging的原理,以及在Bagging基础上改进之后的随机森林(Random Forest,简称RF)算法。码字不易,喜欢请点赞!!!一、集成学习1.1 集成学习简介集成学习(Ensemble Learning),通过组合多个基学习器来完成任务。可用于分类、回归、异常点检测、特征选...原创 2019-07-31 18:53:22 · 1005 阅读 · 0 评论 -
【机器学习】十二、一文看懂支持向量机原理
支持向量机,英文名Support Vector Machine,因此简称SVM。原创 2019-07-30 15:13:19 · 914 阅读 · 2 评论 -
【机器学习】六、线性判别分析原理
一、LDA简介前言线性判别分析(Linear Discriminant Analysis),简称LDA(不同于文档主题分类模型里面的LDA)。是一种可用于数据分类和降维操作的方法(主要用于数据降维),不同于前面讲的无监督降维PCA方法,LDA是有监督的降维方法。这里建议先看一下PCA的降维原理,那篇文章我分享了很多背后的数学知识,链接:https://blog.csdn.net/Ashe...原创 2019-07-12 17:13:54 · 1538 阅读 · 0 评论 -
【机器学习】三、聚类算法原理
机器学习包括有监督和无监督两种,而无监督中主要是聚类和降维算法。对于聚类算法来说,最常用的是K-means算法和层次聚类方法,本文对这两种算法进行简答的介绍。一、聚类算法的思想聚类算法是将N个点聚到K个簇里面,聚类之后,类之间具有异质性,而同一类里面具有同质性。二、K-means算法K-means算法是聚类算法中最经典的算法,其思路如下:确定聚类个数k随机选取k个点作为初始中心点...原创 2019-07-09 17:29:28 · 903 阅读 · 0 评论 -
【机器学习】四、关联规则原理及实例
一、关联规则简介关联规则(Apriori算法),又称为关联分析。其目的是找出,一堆事物中具有关联的事物。关联规则最经典的案例就是“啤酒与尿布”,沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法...原创 2019-07-09 18:09:46 · 6790 阅读 · 0 评论 -
【机器学习】二、逻辑回归原理
一、简介逻辑回归(Logistic Regression),是一种十分简单,又十分好用的二分类算法。既然是二分类算法,你可能在想能研究多分类问题呢?答案当然是可以,比如要分为A、B、C三类,可以首先分为A类和非A类(二分类),然后对非A类(B和C类)进行分类,这就解决了多分类问题。整理不易,还望点个赞,谢谢二、区别逻辑回归虽然和线性回归一样,都带有“回归”字段,可是线性回归是做回归预测,...原创 2019-07-05 20:47:43 · 861 阅读 · 0 评论 -
【机器学习】七、详解朴素贝叶斯原理
一文详解,朴素贝叶斯(Naive Bayes)公式背后的原理。码字不易,喜欢请点赞,谢谢!!!一、朴素贝叶斯前言英国著名的数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)在生前曾写过一篇关于解决逆向概率问题的文章。直到其死后两年(1763),这篇文章被他的好友理查德·普莱斯整理发表。这篇论文的思想影响了接下来几百年的统计学研究。逆向概率是相对于正向概率而言的。正向概率...原创 2019-07-15 18:22:49 · 1367 阅读 · 0 评论 -
【机器学习】五、主成分分析原理
主成分分析(Principal Component Analysis),简称PCA,是机器学习中一种常用来进行数据降维操作的方法。PCA通过矩阵变换,将高维数据变换到低维。本文主要分享PCA的数学原理,帮助大家了解PCA降维的理论基础。一、PCA简介下图是一个二维的手枪图片,我们知道手枪在现实中是三维的,那为什么下面这张手枪图是二维的我们也能认出来了?这是因为虽然这张图是二维的,但是图片保留...原创 2019-07-11 19:00:38 · 945 阅读 · 0 评论 -
【机器学习】十、分类和回归树CART原理
一文详解,分类和回归树算法背后原理。码字不易,喜欢请点赞,谢谢!!!一、前言分类和回归树(Classification And Regression Trees),简称CART,是1984年提出来的既可用于分类,又可用于回归的树。CART被称为数据挖掘领域内里程碑式的算法。上一节介绍了决策树的ID3和C4.5算法,后面说到了C4.5算法存在几点不足,主要为,生成多叉树;容易过拟合;只能用于...原创 2019-07-18 18:13:42 · 1396 阅读 · 0 评论 -
【机器学习】八、K近邻算法原理
一、KNN简介K近邻(k-NearestNeighbor)算法,简称KNN。KNN是数据挖掘中十分常用的算法,其原理简单。KNN的思想就是,选取k个最邻近的点,这k个点属于哪类个数最多,则该点就属于哪类。比如下图,当k=3k=3k=3时,测试点属于六边形类;而当k=5k=5k=5时,测试点属于正方形类。二、KNN算法步骤计算测试数据到每个训练数据的距离(一般采用欧氏距离)按照距离...原创 2019-07-16 15:50:44 · 3281 阅读 · 0 评论 -
【机器学习】十一、学习向量量化算法原理
一文详解,原型聚类只学习向量量化算法背后原理。码字不易,喜欢请点赞,谢谢!!!一、学习向量量化简介前面的文章中,介绍过k-means和层次聚类这两种聚类方法,今天介绍一种新的聚类算法,即学习向量量化(Learning Vector Quantization),简称LVQ。LVQ是一种和k-means很像的算法,也属于原型聚类。但是这种“聚类”算法很奇特,它不再是无监督学习,而是一种需要预设...原创 2019-07-19 15:01:27 · 3952 阅读 · 0 评论 -
【机器学习】九、决策树从ID3到C4.5的原理和实践
一文详解,决策树从ID3算法到C4.5算法背后原理。码字不易,喜欢请点赞,谢谢!!!一、前言决策树算法作为数据挖掘十大经典算法之一,其实已经在日常编程中,被我们使用到了。比如,我们平时写代码的判断语句if−elseif-elseif−else这个组合就是个决策树过程,但是你是否想过先用哪个ififif条件判断会比较好呢?这个条件确定的过程就是决策树的关键思想了。上世纪70年代,昆兰使用信息...原创 2019-07-17 16:21:45 · 535 阅读 · 0 评论 -
【机器学习】一、线性回归原理
线性回归可谓是机器学习最简单的入门了,本文从最小二乘法开始讲解线性回归的过程。由于本文的公式比较复杂,手打比较麻烦,因此部分公式推导会在草稿纸上进行,然后以图片的形式展示。整理不易,还望点个赞,谢谢。其实,我们对线性回归并不默认,从初中开始,我们就开始根据点(x1,y1)(x_1,y_1)(x1,y1),(x2,y2)(x_2,y_2)(x2,y2)来求线性方程,这其实是最简单的线性回...原创 2019-07-03 17:27:01 · 702 阅读 · 2 评论