机器学习
那记忆微凉
大数据+云计算+区块链+微服务+机器视觉
展开
-
回溯法基本思想
回溯法回溯法有“通用的解题法”之称。用它可以系统地搜索一个问题的所有解或任一解。回溯法是一种即带有系统性又带有跳跃性的搜索算法。它在问题的解空间树中,按深度优先策略,从根节点出发搜索解空间树。算法搜索至解空间树的任一结点时,先判断该节点是否包含问题的解。如果不包含,则跳过对以该节点为根的子树的搜索,逐层向其它祖先节点回溯。否则,进入该子树,继续按照深度优先策略搜索。回溯法求问题的所有解时,要回溯...原创 2019-10-29 13:44:12 · 17124 阅读 · 0 评论 -
异常值检测算法
1.iForest(独立森林)算法样本数据过大时推荐采用这种异常值检测方法原理分析:iForest森林也由大量的树组成。iForest中的树叫isolation tree,简称iTree。iTree树和决策树不太一样,其构建过程也比决策树简单,因为其中就是一个完全随机的过程。具体实施过程如下:第一、假设共有N条数据,构建一颗iTree时,从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来...原创 2019-10-15 10:59:55 · 2652 阅读 · 0 评论 -
异常检测算法之iForest (Isolation Forest)孤立森林----一篇通俗易懂的文章
iForest (Isolation Forest)孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(详见新版教材“Outlier Analysis”第5和第6章 PDF)。其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。本文将通俗解释实现方法和日常运用,即无需深厚的数学功...原创 2019-10-12 11:24:08 · 3908 阅读 · 1 评论 -
一个案例教会你AUC和ROC--非常容易理解!
AUC ROC简介AUC是Area Under Curve的简写,这里的Curve其实是指ROC曲线。AUC:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性。所以根据定义:我们最直观的有两种计算AUC的方法:1:绘制ROC曲线,ROC曲线下面的面积就是AUC的值;2:假设总共有(m+n)个样本,其中正样本m个,负样本n个,总共有mn个样本对,计数,正样本预测为正样本...原创 2019-10-12 10:37:48 · 2178 阅读 · 0 评论 -
正则化总结的比较好比较全面的文章
正则化技术广泛应用在机器学习和深度学习算法中,本质作用是防止过拟合、提高模型泛化能力。过拟合简单理解就是训练的算法模型太过复杂了,过分考虑了当前样本结构。其是防止过拟合的其中一种技术手段。在早期的机器学习领域一般只是将范数惩罚叫做正则化技术,而在深度学习领域认为:能够显著减少方差,而不过度增加偏差的策略都可以认为是正则化技术,故推广的正则化技术还有:扩增样本集、早停止、Dropout、集成学习...转载 2018-08-13 15:47:57 · 3752 阅读 · 1 评论 -
centos7下安装Nodejs及其卸载
一.安装1.进入官网下载最新版本https://nodejs.org/en/选择下载后上传或直接使用wget下载wget https://nodejs.org/dist/v8.11.2/node-v8.11.2-linux-x64.tar.xz2.解压***.tar.xz格式文件需要两部解压步骤1>xz -d node-v8.11.2-linux-x64.ta...转载 2019-02-18 16:06:47 · 2351 阅读 · 0 评论 -
GBDT梯度提升决策树原理详解
GBDT 是常用的机器学习算法之一,因其出色的特征自动组合能力和高效的运算大受欢迎。 这里简单介绍一下 GBDT 算法的原理.1、决策树的分类决策树分为两大类,分类树和回归树。分类树用于分类标签值,如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面;回归树用于预测实数值,如明天的温度、用户的年龄、网页的相关程度;两者的区别: 分类树的结果不能进行加减运算,晴天 晴天没有实际意义;...原创 2019-07-24 11:05:13 · 2168 阅读 · 0 评论 -
机器学习和深度学习相关的数据集下载地址
你只需要打开这个链接:http://archive.ics.uci.edu/ml/datasets.php左侧导航栏是数据集的分类,需要什么类型的直接下载即可.原创 2019-10-09 15:54:41 · 524 阅读 · 0 评论 -
Spark之线性回归分析
spark的机器学习库(MLlib)下有简单的回归分析方法,今天只说最简单的线性回归,spark提供有两个回归分析库(mllib和ml),我学习的时候在网上也查了不少资料,有一个奇怪的现象是网上关于spark回归分析的资料基本全是mllib,关于ml的基本没见到,根据官方文档我自己对两个库的方法都做了测试,发现mllib做出的结果不是很正确6,15,7,8,1,21,16,45,45,33,2...转载 2018-07-21 10:45:41 · 1780 阅读 · 1 评论 -
基于spark用线性回归(linear regression)进行数据预测(谋杀率)
分类和聚类算法很多,但是对数据进行精准预测的算法不是很多,这里介绍下最常用的线性回归例子spark官网上给出的例子不够全面,网上有些例子也不够具体,自己整理了一份我的开发环境是ubuntu+IDEA+spark+scala训练数据LR_data如下3615, 3624, 2.1, 69.05, 15.1, 41.3, 20, 50708365, 6315, 1.5, 69.3...转载 2018-07-21 10:43:26 · 3607 阅读 · 1 评论 -
衡量线性回归法的指标:MSE, RMSE和MAE
举个栗子:对于简单线性回归,目标是找到a,b 使得尽可能小其实相当于是对训练数据集而言的,即当我们找到a,b后,对于测试数据集而言,理所当然,其衡量标准可以是但问题是,这个衡量标准和m相关。(当10000个样本误差累积是100,而1000个样本误差累积却达到了80,虽然80<100,但我们却不能说第二个模型优于第一个)改进==> 对式子除以m,使得其与测...转载 2018-07-19 21:05:40 · 6367 阅读 · 0 评论 -
Spark机器学习之线性回归---LinearRegression
版本1:import org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LinearRegressionWithSGDimport org.apache.spark.mllib.regression.LabeledPoint/** * Created by shaokai on 14-9-...原创 2018-07-19 21:14:07 · 1248 阅读 · 0 评论 -
Spark ML函数VectorAssembler
从源数据中提取特征指标数据,这是一个比较典型且通用的步骤,因为我们的原始数据集里,经常会包含一些非指标数据,如 ID,Description 等。为方便后续模型进行特征输入,需要部分列的数据转换为特征向量,并统一命名,VectorAssembler类完成这一任务。VectorAssembler是一个transformer,将多列数据转化为单列的向量列。import org.apache.s...转载 2018-07-19 21:17:32 · 1345 阅读 · 0 评论 -
spark之线性回归、分类、逻辑回归、流线性回归
线性回归(linear regression) 线性回归是预测定量响应变量的工具。 1.简单线性回归 根据单一的预测变量X预测定量响应变量Y,假定X与Y存在线性关系。 通过大量样本数据估算出截距和斜率的估计值。使用最小二乘方法最终得估计值。分类 最常见的分类类型是二元分类,二元分类有两种分类,通常命名为正和负。如果有两个以上的分类,就被称为多元分类。MLlib支持两种线性方法分类:线...原创 2018-07-19 21:20:51 · 1262 阅读 · 0 评论 -
Holt Winter 指数平滑模型
1 指数平滑法移动平均模型在解决时间序列问题上简单有效,但它们的计算比较难,因为不能通过之前的计算结果推算出加权移动平均值。此外,移动平均法不能很好的处理数据集边缘的数据变化,也不能应用于现有数据集的范围之外。因此,移动平均法的预测效果相对较差。指数平滑法(exponential smoothing)是一种简单的计算方案,可以有效的避免上述问题。按照模型参数的不同,指数平滑的形式可以分为一...转载 2018-07-19 21:22:46 · 10647 阅读 · 0 评论 -
Spark-MLlib分类算法(逻辑回归)实战算法
一、数据来源及开发环境开发环境:为了方便代码管理这里使用了IDEA集成开发环境,单机进行代码调试感觉很方便嘛,主要环境与我前两篇博客中部署的环境一致。数据源:机器学习实在中数据的获取很重要,互联网上要找到类似数据非常容易。本实例使用的是Kaggle竞赛数据(相信学习机器学习的都知道这个比赛)。数据是关于网站点击数据,主要用于推荐的页面是短暂流行还是长久流行。下载地址,下载train.tsv...转载 2018-07-20 09:50:54 · 1607 阅读 · 1 评论 -
Spark-聚类分析-出租车案例
通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz数据格式以及意义:111,30.655325,104.072573,173749111,30.655346,104.072363,173...转载 2018-07-20 11:56:34 · 4085 阅读 · 4 评论 -
Spark MLlib线性回归代码实现及结果展示
线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为一元线性回归,大于一个自变量情况的叫做多元线性回归。代码实现:import org.apache.spark.sql.SparkSessionimport org.apa...转载 2018-07-21 10:39:50 · 1765 阅读 · 0 评论 -
时间序列分析之holtwinters和ARIMA
一、概述 1.时间序列的平稳性 如果一个时间序列的统计特征不随时间推移而变化,即满足:1.对于任意的时间t,其均值恒为一常数;2.对于任意的时间t和s,其自协方差和自相关系数只依赖于时间间隔t-s,而与t和s的起止点无关。这样的时间序列被称为平稳时间序列。也可以认为,如果一个时间序列无明显的上升或下降趋势,各观察值围绕其均值上下波动,这个均值相对于时间来说是一个常数,那么时间序列为...转载 2018-07-18 09:47:20 · 4374 阅读 · 0 评论