2018年07月_那记忆微凉

转载互信息的深度理解（总结的不错值得一看）

1.互信息的定义　　正式地，两个离散随机变量 X 和 Y 的互信息可以定义为：　　其中 p(x,y) 是 X 和 Y 的联合概率分布函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。　　在连续随机变量的情形下，求和被替换成了二重定积分：　　其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。...

2018-07-30 09:37:37 56520 13

转载 scala集合类详解（总结的比较全面）

对scala中的集合类虽然有使用，但是一直处于一知半解的状态。尤其是与java中各种集合类的混合使用，虽然用过很多次，但是一直也没有做比较深入的了解与分析。正好趁着最近项目的需要，加上稍微有点时间，特意多花了一点时间对scala中的集合类做个详细的总结。1.数组Array在说集合类之前，先看看scala中的数组。与Java中不同的是，Scala中没有数组这一种类型。在Scala中，Arra...

2018-07-29 11:56:41 5683

spark的机器学习库（MLlib）下有简单的回归分析方法，今天只说最简单的线性回归，spark提供有两个回归分析库（mllib和ml），我学习的时候在网上也查了不少资料，有一个奇怪的现象是网上关于spark回归分析的资料基本全是mllib，关于ml的基本没见到，根据官方文档我自己对两个库的方法都做了测试，发现mllib做出的结果不是很正确6,15,7,8,1,21,16,45,45,33,2...

2018-07-21 10:45:41 1780 1

转载基于spark用线性回归（linear regression)进行数据预测(谋杀率）

分类和聚类算法很多，但是对数据进行精准预测的算法不是很多，这里介绍下最常用的线性回归例子spark官网上给出的例子不够全面，网上有些例子也不够具体，自己整理了一份我的开发环境是ubuntu+IDEA+spark+scala训练数据LR_data如下3615, 3624, 2.1, 69.05, 15.1, 41.3, 20, 50708365, 6315, 1.5, 69.3...

2018-07-21 10:43:26 3607 1

转载 Spark MLlib线性回归代码实现及结果展示

　　线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为一元线性回归,大于一个自变量情况的叫做多元线性回归。代码实现：import org.apache.spark.sql.SparkSessionimport org.apa...

2018-07-21 10:39:50 1766

转载 Spark-聚类分析-出租车案例

通过分析出租车数据，然后使用KMeans对经纬度进行聚类，然后按照（类别，时间）进行分类，再统计每个类别每个时段的次数。数据地址链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz数据格式以及意义：111,30.655325,104.072573,173749111,30.655346,104.072363,173...

2018-07-20 11:56:34 4085 4

转载 Spark-MLlib分类算法（逻辑回归）实战算法

一、数据来源及开发环境开发环境：为了方便代码管理这里使用了IDEA集成开发环境，单机进行代码调试感觉很方便嘛，主要环境与我前两篇博客中部署的环境一致。数据源：机器学习实在中数据的获取很重要，互联网上要找到类似数据非常容易。本实例使用的是Kaggle竞赛数据（相信学习机器学习的都知道这个比赛）。数据是关于网站点击数据，主要用于推荐的页面是短暂流行还是长久流行。下载地址，下载train.tsv...

2018-07-20 09:50:54 1610 1

转载 Spark ML包中的几种归一化方法总结

还不错！！！org.apache.spark.ml.feature包中包含了4种不同的归一化方法：Normalizer StandardScaler MinMaxScaler MaxAbsScaler有时感觉会容易混淆，借助官方文档和实际数据的变换，在这里做一次总结。原文地址：http://www.neilron.xyz/spark-ml-feature-scaler/0 ...

2018-07-20 09:36:50 1530

转载 Holt Winter 指数平滑模型

1 指数平滑法移动平均模型在解决时间序列问题上简单有效，但它们的计算比较难，因为不能通过之前的计算结果推算出加权移动平均值。此外，移动平均法不能很好的处理数据集边缘的数据变化，也不能应用于现有数据集的范围之外。因此，移动平均法的预测效果相对较差。指数平滑法(exponential smoothing)是一种简单的计算方案，可以有效的避免上述问题。按照模型参数的不同，指数平滑的形式可以分为一...

2018-07-19 21:22:46 10647

原创 spark之线性回归、分类、逻辑回归、流线性回归

线性回归（linear regression）线性回归是预测定量响应变量的工具。 1.简单线性回归根据单一的预测变量X预测定量响应变量Y，假定X与Y存在线性关系。通过大量样本数据估算出截距和斜率的估计值。使用最小二乘方法最终得估计值。分类最常见的分类类型是二元分类，二元分类有两种分类，通常命名为正和负。如果有两个以上的分类，就被称为多元分类。MLlib支持两种线性方法分类：线...

2018-07-19 21:20:51 1262

转载 Spark ML函数VectorAssembler

从源数据中提取特征指标数据，这是一个比较典型且通用的步骤，因为我们的原始数据集里，经常会包含一些非指标数据，如 ID，Description 等。为方便后续模型进行特征输入，需要部分列的数据转换为特征向量，并统一命名，VectorAssembler类完成这一任务。VectorAssembler是一个transformer，将多列数据转化为单列的向量列。import org.apache.s...

2018-07-19 21:17:32 1346

原创 Spark机器学习之线性回归---LinearRegression

版本1：import org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LinearRegressionWithSGDimport org.apache.spark.mllib.regression.LabeledPoint/** * Created by shaokai on 14-9-...

2018-07-19 21:14:07 1248

转载衡量线性回归法的指标：MSE, RMSE和MAE

举个栗子：对于简单线性回归，目标是找到a,b 使得尽可能小其实相当于是对训练数据集而言的，即当我们找到a，b后，对于测试数据集而言，理所当然，其衡量标准可以是但问题是，这个衡量标准和m相关。（当10000个样本误差累积是100，而1000个样本误差累积却达到了80，虽然80<100，但我们却不能说第二个模型优于第一个）改进==> 对式子除以m，使得其与测...

2018-07-19 21:05:40 6367

转载 RDD、DataFrame、DataSet关系以及相互转换（包含JAVA API）

Spark提供了三种主要的与数据相关的API：RDD DataFrame DataSet三者图示下面详细介绍下各自的特点：RDD主要描述：RDD是Spark提供的最主要的一个抽象概念（Resilient Distributed Dataset），它是一个element的collection，分区化的位于集群的节点中，支持并行处理。 RDD的特性分布式...

2018-07-19 21:03:41 2197

转载时间序列分析之holtwinters和ARIMA

一、概述 1.时间序列的平稳性如果一个时间序列的统计特征不随时间推移而变化，即满足:1.对于任意的时间t，其均值恒为一常数;2.对于任意的时间t和s,其自协方差和自相关系数只依赖于时间间隔t-s,而与t和s的起止点无关。这样的时间序列被称为平稳时间序列。也可以认为，如果一个时间序列无明显的上升或下降趋势，各观察值围绕其均值上下波动，这个均值相对于时间来说是一个常数，那么时间序列为...

2018-07-18 09:47:20 4375

转载基于Spark技术实现大规模时间序列异常检测成功落地

最近一直忙于异常检测项目的上线，一直没有时间来更新博客，该系统已经在大规模时间序列场景稳定运行1个多月，简单总结一下。达到的目标，通过Spark对3万个服务器进行预测，每个服务器包括5个指标，每个指标对应一个时间序列，模型全量15万，全量训练用21个Core耗时3个小时，预测程序12个core运行状态良好，整个系统已经平稳运行一个月，整个系统预估能够支持上亿个模型进行同时训练和预测。设计到...

2018-07-18 09:29:27 2117 2

原创 spark报错：Caused by: java.util.regex.PatternSyntaxException: Unclosed group near index 1

Spark中使用val rdd2 =rdd.flatMap(_.replaceAll("(","").replaceAll(")",""))报错：解决方案：报错的原因是（引起的解决方法很简单，对于字符'(',使用 \\( 或 [(] 即可。因为在正则表达式中，有个“捕获组”的概念，其使用了小括号；因此分析，当正则表达式解析到左括号时，没有发现对应的右括号，从而报错。...

2018-07-17 21:26:28 3017 1

原创已知中序遍历和后序遍历，画出此二叉树

知道中序遍历和后续遍历，如何画出二叉树，并写出前序遍历。要是知道前序和后续遍历，不能确定唯一的二叉树！步骤：通过例子来说明：已知中序遍历：HDMIBJNEAFKCG.后续遍历：HMIDNJEBKFGCA.求出此二叉树。1）通过后续遍历知道A是根，C是A的右子树。HDMIBJE是A的左子树部分，FKCG是右子树部分。B则是A的左子树；2）接着看A的右子树部分KFGC，C是根，从...

2018-07-17 10:02:31 33726 12

转载 Spark之标签和索引的转化:StringIndexer，IndexToString，VectorIndexer

Spark的机器学习处理过程中，经常需要把标签数据（一般是字符串）转化成整数索引，而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器：StringIndexer、 IndexToString，OneHotEncoder，以及针对类别特征的索引VectorIndexer。StringIndexer StringIndexer是指把一组字符型标签编码成一组标签索引，索引的范围为0到...

2018-07-11 17:51:21 1428

原创 SparkSql报错：metastore.ObjectStore: Version information found in metastore differs 2.3.0 from expected

Spark操作sparkSql报错：metastore.ObjectStore: Version information found in metastore differs 2.3.0 from expected schema version 1.2.0. Schema verififcation is disabled hive.metastore.schema.verification so...

2018-07-10 11:43:21 4194 1

原创 IDEA中使用SparkSQL连接Hive数据库报错：找不到表Table or view 'emp' not found

错误信息：Exception in thread "main" org.apache.spark.sql.catalyst.analysis.NoSuchTableException: Table or view 'emp' not found in database 'test1';解决方案：需要将hive-site.xml这个文件拷贝到resource下。问题解决！！...

2018-07-03 11:11:30 8600 4

原创 spark读取Hive出错： Database 'test1' not found

错误：找不到数据库。Exception in thread "main" org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'test1' not found;解决方案：加上enableHiveSupport()即可，否则默认不读hive-site.xml。val spark = SparkSessio...

2018-07-03 11:06:31 6098 4

原创 Spark操作Hive数据库的时候报错：Failed to write to table test1.hive_table in ErrorIfExists mode

Spark操作Hive数据库的时候报错：ERROR command.CreateDataSourceTableAsSelectCommand: Failed to write to table test1.hive_table in ErrorIfExists mode提示：count(1)的时候加一个别名。解决方法：即可。...

2018-07-03 09:56:02 1209 1

原创 linux中uniq命令的使用

uniq命令用于报告或者忽略文件中的重复的行，一般与sort命令结合使用。语法uniqu(选项）（参数）选项-c / --count：在每列旁边显示该行重复出现的次数；-d / --repeated: 仅显示重复出现的行；-f<栏位> / --skip-fields=<栏位>:忽略比较指定的栏位；-s<字符位置> / --skip-...

2018-07-01 16:41:27 2422

原创 JDK7的新特性（总结---for面试官）

JDK7新特性二进制字面量。Java7添加二进制表示（0B11110001、0b11110001）数字字面量可以出现下划线。Java7中支持在数字量中间添加’_’作为分隔符。更直观，如（12_123_456）。下划线仅仅能在数字中间。编译时编译器自己主动删除数字中的下划线。Switch语句中可以用字符串。例如：String s = "a"; switch (s) { ...

2018-07-01 16:18:18 344

转载 JVM调优总结(这个总结得比较全面+修改)

一、堆大小设置 JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： 1、java -Xmx3550m -Xms3...

2018-07-01 15:19:40 7365 2

BigData_Mining的博客