自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 Kettle(PDI-Pentaho Data Integration)7.1安装与性能测试

Windows环境安装安装版本:7.1基础环境:JDK1.8u144下载路径:https://sourceforge.net/projects/pentaho/files/Data Integration/解压缩即可使用,绿色无污染SqlServer连接下载路径http://www.microsoft.com/zh-cn/download/details.aspx?id=11774,解...

2019-02-12 15:00:54 1549

原创 关于数据仓库设计中的那些事儿——数据与数据预处理

非系统性的阐述一些思想,拍个爪先!数据与原始数据数据挖掘领域,一般针对的是文本类的数据,通俗的来说就是广义上的数字(含日期)和文字。但我更想以更广泛的范围讨论数据挖掘的范畴,所以把图片、视频等数据也涵盖其中了。对于工程而言,一般以数据的传输形式,即离线和实时两个大类别进行划分。传输的内容可能是文件(实时视频数据可以看做分段文件)或是字段等形式。其来源可能是移动端、也可能是数据库;既可能是别人...

2018-12-06 22:54:55 1175

原创 关于《损失模型》的一点笔记——第二部分精算模型-1随机变量与分布函数

一般的精算模型尝试表现出未来不确定的支付流,不确定性包括事件是否会发生、发生的时间以及损失量。一些概念: 1. 现象是指可以观测到的发生。 2. 试验是指在一定条件下对某给定现象的一个观测。 3. 一次试验的最终观测称为结果。 4. 事件是一个或多个结果的集合。 5. 随机现象是指试验可能会有一个以上的结果。 6. 具有随机现象的事件称为不确定结果。 7. 概率是对一个事件的结果...

2018-08-25 11:51:05 4063 3

原创 关于《损失模型》的一点笔记——第一部分引言

一直想找关于建模类的书籍,了解了一圈儿大家推荐看一下《损失模型——从数据到决策》这本书。据说是保险精算的圣书。所以趁着年轻还保有一头秀发的时候,研究一下。先厘清一些基本的认知: 1. 模型是对现实简化的模型表达。 2. 通过分析数据与模型的差异度来度量模型和数据的适应性:即模型的拟合度与简单程度。 3. 建模过程 这个图是直接从书里截取的,简单的理解各个阶段的概念 第1阶段:根据...

2018-08-13 09:56:09 1324

原创 基于内存的分布式文件存储系统Alluxio

如果是只有字段缓存的话,redis应该是够用了。但是如果涉及到大量文件,尤其是用hdfs作为底层存储结构的,建议用alluxio升级一下。一方面有利于spark资源控制,另一方面也可以统一入口便于扩展。本文只涉及集群环境下一个简单小集群的搭建,详细用法见官方文档http://www.alluxio.org/docs/master/cn/Running-Alluxio-on-a-Cluster....

2018-07-26 14:43:05 2433

原创 Spark一些基础原理——Cache

lv0cache是Spark程序设计中比较重要的一环,是对RDD的中间结算结果进行持久化,截断RDD的血统,这种持久化一般是多副本形式存在的。在Task发生调用RDD的compute计算时,其通过iterator进行计算,它会识别是否有缓存数据可以调用,如果没有则通过RDD继续计算;如果有则BlockManager从Local或者Remote获取数据,没获取到再检查checkpoint中的数据...

2018-07-24 14:45:18 467

原创 Spark一些基础原理——资源调度

自学知识:RDD的生命周期,DAG任务调度lv0在Spark中,资源调度是Master负责管理的,Worker通过注册的形式在Master注册相关资源。而在执行过程中,是通过sc即Driver向Master申请计算资源(Master根据集群设置启动不同的Driver,对于Standalone而言Driver是在提交任务的本地环境,而对于Cluster而言是由Master分配到某一个Work...

2018-07-23 16:12:43 240

原创 Spark一些基础原理——Job

背景知识:Spark基本工作原理、RDDlv0一个典型的Job是由以下过程组成:从数据源(Data blocks)加载生成RDD(每个数据分片Partition一般是128M,最后一条记录横跨2个blocks),后将RDD经过一系列转换(包括基本类型转换和洗牌)最终得到计算结果(result),再将结果汇总到driver端。往往由Action触发,每个Action对应一个Job。(后接1-...

2018-07-23 15:13:27 1236

原创 Spark一些基础原理——Shuffle

自学背景知识:Spark基本工作原理Job、Task、Stage、MapReducelv0Shuffle(洗牌)是介于MapReduce框架的中间阶段,Map负责实现其写入,Reduce实现其读取。大致过程就是将Map在内存中的缓存进行分区、排序、溢出到磁盘的数据进行抓取合并以重新持久化到磁盘与内存中,便于执行Reduce任务。(后接lv1-1) 其任务执行过程是在Stage阶段判断是否...

2018-07-20 16:03:08 487

原创 Spark一些常用的数据处理方法-3.MLlib的模型(还没写完)

因为mllib属于基础库,且本系列主要作为普及性文章,所以我不打算更新相关原理及其数学关系,有兴趣自学的童鞋可以去网上翻,基本原理都是一样的。3.1 什么叫模型我理解的模型,就是对现实业务的一种数字化抽象。它既可以是一套数学公式的各种参数组合,也可以是一种多维向量的数字化呈现,就是特征与数量的关系。3.2 MLlib模型转为PMML模型PMML模型就相当于数据库中的csv文件之类的东西,所有支持标准

2017-12-25 09:15:19 966

原创 Spark一些常用的数据处理方法-2.MLlib基础统计方法

SparkMLlib中会经常对RDD用到统计方法,其用法如下1.1 基础加载包 //向量 import org.apache.spark.mllib.linalg.Vector //向量集 import org.apache.spark.mllib.linalg.Vectors //稠密向量 import org.apache.spark.mllib.linalg.DenseVecto

2017-12-22 16:35:55 766

原创 Spark一些常用的数据处理方法-1.RDD计算

在Spark实际应用中,会用到很多数值处理方法,我将一些比较常用的方法写在这里,供新手向的学习参考一下。RDD的计算1.1 读取文件至RDD var rdd = sc.textFile("文件路径") var rddfromhdfs = sc.textFile("hdfs://hadoop-master-001:9000/hdfs文件路径") 这个当中有很多方法,比较常用的是 //返

2017-12-21 15:29:59 1617

原创 SparkMLlib稀疏矩阵

SparkMLlib中关于矩阵的东西还是比较好理解的,不过在本地矩阵中,有个东西叫稀疏矩阵在理解方面可能会有些问题,所以单独提出来一下。1.什么是稀疏矩阵?这个东西我觉得百度说的挺清楚了,尤其是下面这张图很容易理解 左边这个叫稀疏矩阵,右边这个叫密集矩阵 简单的理解,就是0在矩阵中的数量是多还是少的事情。2.Spark中的稀疏矩阵SparkMLlib中的稀疏矩阵写法是这样的 val sm:

2017-12-21 11:03:39 2257

原创 Scala函数式编程课后习题答案(第六章)

Scala函数式编程课后习题答案(第六章)

2017-05-23 16:43:50 1328

原创 Scala函数式编程课后习题答案(第五章)

Scala函数式编程课后习题答案(第五章)没有按题目细分,比较杂乱。

2017-05-23 14:42:18 890

原创 Scala函数式编程课后习题答案(第四章)(更新ing)

Scala函数式编程课后习题答案(第四章)(更新ing)练习4.1trait Option[+A] { case object None extends Option[Nothing] case class Some[+A](value:A) extends Option[A] def map[B](f: A => B): Option[B]= this match { case

2017-05-15 15:01:26 1140

原创 Scala函数式编程课后习题答案(第三章)(更新ing)

Scala函数式编程课后习题答案(第三章)

2017-05-11 14:12:33 3036 1

转载 Java链接Mongodb

Java链接Mongodb首先下载Jar包 官方下载链接:http://mongodb.github.io/mongo-java-driver/ 选择左侧Installation Guide,依次下载directly,bson,mongodb-dirve-core 2.导入3个jar包到项目中,然后按照如下Text程序实现增删改查/** * test */ pr

2017-01-17 14:11:41 326

中型开发项目详细设计文档

学习期间写的开发技术文档

2017-01-17

学员综合测评系统管理员技术文档

学习期间写的技术文档PPT介绍

2017-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除