机器学习
文章平均质量分 91
我一拳打弯你A柱
7200 干他!
展开
-
StreamingLogisticRegression计算部分源码解读
Streaming Logistic Regression计算部分源码解读大家好,我是一拳就能打爆A柱的猛男最近重新调整了时间,以后源码部分和翻译同时做,可能进度慢一点,但是尽量两天一更才行。今天给大家带来流式逻辑回归(Streaming Logistic Regression)计算部分的源码解读,下面我将从下面几个部分来讲解:逻辑回归,程序入口,流式逻辑回归源码。1、逻辑回归 机器学习解决问题的时候,需要将问题进行归类,大致分为两种:数值预测和分类。针对数值预测问题一般采用回归模型;而针对分类原创 2021-02-18 21:44:14 · 212 阅读 · 0 评论 -
StreamingKMeans核心源码解读 流式KMeans核心源码解读
StreamingKMeans核心源码解读 流式KMeans核心源码解读大家好,我是一拳就能打爆A柱的硬核男人之前给大家翻过流式算法的继承树,而且对于每一部分组件的内容、职责都有了一点了解,其实Spark流式算法的大致结构都差不多,所以这里也不给大家翻继承树了,直接上核心部分的代码一行行的分析。接下来我会先介绍方法入口,方便大家打开IDE跟着博客一起看,同时我会以行号加粗的方式标志代码,下方配上分析,希望各位能习惯。(建议一起打开IDE源码交叉看,当然我也会把代码贴出来。)1、 方法入口在Spark原创 2021-02-08 17:45:48 · 427 阅读 · 1 评论 -
StreamingLinearRegressionWithSGD核心计算部分源码解读
StreamingLinearRegressionWithSGD核心计算部分源码解读大家好,我是一拳就能打爆A柱的猛男经过考虑,我决定接下来的几天把Spark中的一些流式机器学习算法的最核心的代码给大家讲解一下,看看我能扒多深吧。今天给大家讲流式线性回归最核心的部分的代码,接下来就分为三部分:发现核心、源码分析、对数据的影响。1、发现核心在之前的博客《StreamingLinearRegressionWithSGD源码分析 流式线性回归源码分析》中提到过最核心的这部分代码的位置。但是由于当时关注的重原创 2021-02-07 11:49:58 · 249 阅读 · 0 评论 -
StreamingLinearRegressionWithSGD源码分析 流式线性回归源码分析
Spark源码大家好,我是一拳就能打爆A柱的A柱猛男上次也写过一篇分析源码的文章,但是结构很乱,所以我决定重新再来一次。这一次我自认为写的很成功,你要是坚持看下去看不懂,我直播给你锤帕萨特A柱!1、StreamingLinearRegressionWithSGD源码我重新去看了DStream和RDD的关系,让我对他们有了更深的理解。RDD作为弹性分布式数据集,**RDD是对分发到各个节点的同一份数据集的不同段的数据的统一抽象,对RDD的操作就是对各个节点相应数据做相同的操作。**而DStream是建原创 2021-01-16 10:42:22 · 464 阅读 · 0 评论 -
StreamingLinearRegressionWithSGD测试
Spark Streaming 线性回归算法测试一、StreamingLinearRegressionWithSGD测试重新看过文档后对DStream有了理解,我决定在流式处理的时候采用即时训练即时测试的方法,将数据从kafka读取到后经过清洗,复制出一份用于训练,一份用于测试。在DStream中我知道可以遍历每一个RDD(foreachRDD),而且在RDD中的操作可以打印到终端。所以我写了下面这个案例:import java.langimport StreamingLinearRegressi原创 2021-01-16 10:13:00 · 369 阅读 · 0 评论 -
StreamingLinearRegressionWithSGD源码分析
StreaingLinearRegressionWithSGD源码分析大家好,我是一拳就能打爆A柱的猛男好久不见,真的好久没写博客了,最近在准备考试,然后写了一篇20年总结。这个礼拜还是跟之前的进度一样去研究如何测试Spark中的流式机器学习算法的性能。今天给大家带来流式线性回归算法的源码讲解,配合我对分布式的了解给大家说说我的看法。巨长,耐心看完会有收获,没时间建议先收藏!巨长,耐心看完会有收获,没时间建议先收藏!巨长,耐心看完会有收获,没时间建议先收藏!StreaingLinearRegre原创 2021-01-12 16:12:28 · 415 阅读 · 0 评论 -
SparkMLlib-KMeans性能测试
SparkMLlib - KMeans性能测试大家好,我是一拳就能打爆A柱的猛男前面两篇写了逻辑回归和线性回归的测试方法,这回来说无监督算法KMeans的测试,接下来的讲解顺序是:1、评价指标介绍,2、具体案例。注:对数据集有疑问的同学可以看《SparkMLlib-LogisticRegression性能测试》,对KMeans算法有疑问的同学可以看《K-Means算法及相关案例》。1、 评价指标介绍聚类算法评价标准需要考虑簇内相似度以及簇间相似度,簇内相似度越高越好,簇间相似度越低越好。聚类算法原创 2020-12-16 17:32:32 · 424 阅读 · 2 评论 -
SparkMLlib-LinearRegression性能测试
LinearRegression性能测试大家好,我是一拳就能打爆A柱的猛男MLlib中的批式机器学习算法LinearRegression也是典型的回归算法,常用于解决回归问题,接上篇《SparkMLlib-LogisticRegression性能测试》的内容我们已经了解的回归算法的正则化、评价指标等问题,接下来做线性回归的性能测试就比较干脆了,接下来我直接带一个案例给大家:1、 LinearRegression案例还是因为没有数据的原因,还是选择使用官方提供的数据集。数据集:sample_line原创 2020-12-16 17:06:17 · 321 阅读 · 0 评论 -
SparkMLlib-LogisticRegression性能测试
LogisticRegression性能测试大家好,我是一拳就能打爆A柱的猛男MLlib中的批式机器学习算法LogisticRegression是典型的一个回归算法,通常用于分类问题,今天给大家带来逻辑回归的测试方法,接下来的讲解顺序是:1、数据集介绍,2、关于正则化,3、评价指标介绍,4、具体案例。注:若没有接触过回归算法的朋友可以看《逻辑回归(LogisticRegression)算法及简单案例》、《线性回归算法(Linear Regression)及相关案例》、《局部加权线性回归算法(Local原创 2020-12-16 16:48:47 · 253 阅读 · 0 评论 -
Streaming做KMeans、实时KMeans算法
Streaming是怎么做KMeans的?大家好,我是一拳就能打爆你A柱的男人大家在学机器学习的时候一定看过K-Means算法,但是各位有没有想过在实时计算的时候是如何做K-Means的呢?接下来我打算从下面几个方面来给大家梳理一下:1、K-Means算法原理,2、Streaming K-Means手算,3、Streaming K-Means源码解读。1、 K-Means算法原理关于K-Means算法我之前有一篇博客也讲过,并且附带案例。各位有兴趣的可以去看一看:K-Means算法及相关案例 。接下原创 2020-11-24 17:09:36 · 1056 阅读 · 0 评论 -
PCA算法背后的数学原理(手写版)
PCA算法背后的数学原理(手写版)大家好,我是W大家做特征处理的时候可能都会用到PCA,但是PCA背后的具体数学原理还真不一定了解,这篇文章我通过学习PCA的数学原理然后配合自己的理解给大家讲一下PCA,并且给大家一个学习PCA的路线。第一次接触PCA对于第一次接触PCA的同学我建议先看视频把PCA的作用、调包实现PCA、PCA大概思路给理解清楚。下面是我给大家整理的几个链接,请大家按顺序阅读:第13章 利用PCA来简化数据 (6分20秒之前要看懂,后面的能看就看)sklearn中PCA的使用原创 2020-09-13 23:16:44 · 270 阅读 · 0 评论 -
Apriori算法详解及手写案例
大家好,我是W在数据挖掘中有一种关联分析算法叫做Apriori算法,大家可能都听说过啤酒尿布的故事,购买尿布的爸爸很可能会再去购买一份啤酒来犒劳自己,在大数据的背景下已经无法使用人工的方法去发现海量商品间的关联性,所以需要算法的支持。Apriori就是关联性分析算法的祖师级算法。接下来我们从下面几个内容来讲Apriori算法:1、相関概念 2、算法原理 3、Apriori算法实现 - 7500行购物清单案例 4、算法优劣分析。1、 相关概念在学习算法前需要了解一些特定名词,以及一些评估频繁项集的几个指原创 2020-09-07 19:08:33 · 11837 阅读 · 13 评论 -
K-Means算法及相关案例
K-Means算法及相关案例大家好,我是WK-Means作为机器学习的一个基础代码,显然稍微看过一点机器学习相关的内容的人都会听说过它。今天就来用实际代码讲K-Means算法的思想和原理。这篇文章的顺序是:1、K-Means算法原理 2、设计算法 3、案例1-普通K-Means算法代码实现。1、K-Means算法原理K-Means属于无监督学习算法,即在不知道数据集分类的情况下将相似的对象归到一个类(簇)中,是一种聚类。聚类和分类的差别在于是否知道训练集数据的分类,聚类是不知道的,而分类是知道的。原创 2020-08-25 11:25:09 · 6754 阅读 · 1 评论 -
局部加权线性回归算法(Locally Weighted Linear Regression)及相关案例
局部加权线性回归算法(Local Weighted Linear Regression)及相关案例大家好,我是W这次讲线性回归,之前有说逻辑回归(Logistic Regression),虽然逻辑回归负责分类,可是在数据到达二值函数之前的逻辑都是线性回归的逻辑,所以这两个回归是十分相似的。这篇文章的顺序是:1、线性回归算法原理 2、最小二乘法和算法评估标准 3、案例1-简单数据集标准线性回归 4、案例2-简单数据集局部加权线性回归 5、案例3-鲍鱼年龄预测。案例2-简单数据集局部加权线性回归接上一篇原创 2020-08-22 23:27:54 · 7287 阅读 · 0 评论 -
线性回归算法(Linear Regression)及相关案例
线性回归算法的原理和代码实现大家好,我是W这次讲线性回归,之前有说逻辑回归(Logistic Regression),虽然逻辑回归负责分类,可是在数据到达二值函数之前的逻辑都是线性回归的逻辑,所以这两个回归是十分相似的。这篇文章的顺序是:1、线性回归算法原理 2、最小二乘法和算法评估标准 3、案例1-简单数据集标准线性回归 4、案例2-简单数据集局部加权线性回归 5、案例3-鲍鱼年龄预测。1、线性回归算法原理在学习scikitlearn的时候会有一个经典案例,就是Boston房价预测,就是用回归去做原创 2020-08-20 12:41:19 · 8239 阅读 · 0 评论 -
逻辑回归(LogisticRegression)算法及简单案例
逻辑回归(LogisticRegression)算法及简单案例大家好,我是W逻辑回归虽然名字有回归,但是实际上是分类模型,常用于二分类。**回归的意思是:在二维空间中找到一条最佳拟合直线去拟合数据点;在多维空间中找到最佳拟合超平面去拟合数据点,这个寻找拟合的过程就叫做回归。**这篇文章的顺序是:介绍相关概念、逻辑回归原理、案例 - 简单数据集的逻辑回归分类。介绍相关概念二值型输出分类函数在我们通过回归得到一个数值时我们需要一个函数给我们做分类,在数学上我们就学过一个分段函数,x>0时,f(x原创 2020-08-15 10:48:24 · 16183 阅读 · 1 评论 -
朴素贝叶斯算法以及案例
朴素贝叶斯算法以及案例大家好,我是W这次给大家带来朴素贝叶斯算法,贝叶斯分类是一类分类算法的总称,其基础都是贝叶斯定理。要理解该算法就需要先理解其背后的概率知识,我会尽量详细地给大家讲解清楚。所以今天的顺序是:贝叶斯理论和条件概率、朴素贝叶斯原理、案例 - insultingComments分类。Bayes贝叶斯理论假设在坐标轴中存在两类点,分别对应着两个类别。接下来我们要对新加入的点进行分类,我们要怎么做?可能会联想到之前的KNN算法,这也是一个思路。但是在这里可以考虑使用贝叶斯决策:即我们可以认原创 2020-08-13 21:16:55 · 4542 阅读 · 0 评论 -
一篇文彻底理解KNN算法 - 我点了一包华子,终于明白了海伦是个好女孩
一篇文彻底理解KNN算法 - 我点了一包华子,终于明白了海伦是个好女孩大家好,我是W这次我们要手撕KNN,同时自己实现KNN。当然KNN的思想很简单,所以重点会放在实现自己的KNN上。K-近邻(KNN,K-NearestNeighbor)算法是一种基本分类与回归算法,这一篇文中我们用来实现分类。接下来的内容顺序是:KNN算法的原理、案例1-海伦约会、案例2-手写数字识别。KNN算法的原理假设在你面前摆设有一堆瓜子,你只能通过观察其外表来分别瓜子的好坏,那么你能够获得的观察维度只能包括两种特征:瓜子壳原创 2020-08-11 19:29:05 · 864 阅读 · 0 评论 -
一篇文彻底理解KNN算法 - 我点了一包华子,终于明白了海伦是个好女孩
一篇文彻底理解KNN算法 - 我点了一包华子,终于明白了海伦是个好女孩大家好,我是W这次我们要手撕KNN,同时自己实现KNN。当然KNN的思想很简单,所以重点会放在实现自己的KNN上。K-近邻(KNN,K-NearestNeighbor)算法是一种基本分类与回归算法,这一篇文中我们用来实现分类。接下来的内容顺序是:KNN算法的原理、案例1-海伦约会、案例2-手写数字识别。KNN算法的原理假设在你面前摆设有一堆瓜子,你只能通过观察其外表来分别瓜子的好坏,那么你能够获得的观察维度只能包括两种特征:瓜子壳原创 2020-08-11 19:25:25 · 1008 阅读 · 0 评论 -
监督学习回归算法详解与Boston房价预测练习
监督学习回归算法详解与Boston房价预测练习长文警告,请耐心阅读前言:为什么这篇文章的名字起的那么怪异,这主要是因为机器学习的分类是这样分的,所以起了个这样的名字。回归主题,这回我们来学习机器学习算法的回归算法,在讲回归算法之前还要聊聊机器学习大致分类,线性回归算法原理、api详解,最后结合Sklearn的Boston房价数据做房价预测练习。文章流程:机器学习分类、线性回归算法原理、线性回...原创 2020-03-16 21:47:13 · 2513 阅读 · 0 评论 -
如何对数据进行K-Means聚类
如何对数据进行K-Means聚类大家好,我是W前言:可能大家在初步学习机器学习的时候都会想很快的得到直观的效果,最好能用plt展示出来。所以今天我们就学学怎么对数据进行K-Means聚类,并且通过matplotlib.pyplot对记录分类的结果进行展示。接下来我们需要按照以下步骤去对我们的数据进行操作。步骤:对数据进行清洗对数据进行特征抽取对数据进行标准化(可选)对数据进行K-...原创 2020-03-01 18:52:30 · 4644 阅读 · 5 评论