- 博客(19)
- 收藏
- 关注
转载 工作笔记
Matrix Completion、Dual Random Projection (对偶随机投影) [iDST 金榕 2015.12中国大数据技术大会] 一、TensorFlow线性模型 使用TF.Learn API来解决二分类问题。给定人口统计数据例如:一个人的年龄、性别、教育程度、职...
2017-06-27 20:01:00 176
转载 Hive进阶
Hive表模式设计 理想的分区方案不应该导致产生太多的分区和文件夹目录,而且每个分区下包含文件大小分布均匀。对Hive表进行join操作时,需要考虑连接键值是否是表的唯一键。在按天调度的任务中,中间表尽可能采用按天分区的方案。分区表分桶的优点:因为桶的数量是固定的,所以它没有数据波动;如果...
2017-04-28 17:13:00 149
转载 Hive概要
Hive综述 Hive提供了一门简单的基于SQL的查询语言HQL,使得熟悉SQL的使用者可以很容易的执行随机查询和数据分析。同时HQL也支持传统的MapReduce编程模式,以扩展语言内建的功能,实现复杂的数据分析逻辑。 对于大多数查询,Hive编译器将产生多个map-reduce jo...
2016-01-14 11:36:00 161
转载 parquet文件
1. Parquet文件格式选用thrift完成文件元数据的序列化和反序列化。在parquet-format项目的thrift目录下,文件parquet.thrift详细定义了parquet文件的元数据类型。下面这张图较好的描述了parquet元数据的数据结构。 ...
2015-12-17 14:32:00 577
转载 列式存储 Parquet
本文涉及的Parquet的一些基本原理,可以参考网页:http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-format 1. 最初创建Parquet的目的是:要在Ha...
2015-10-16 11:12:00 528
转载 推荐算法review
本文将按照作者学习的顺序,对推荐算法进行一个综述性的介绍,可能会有些跳跃性。一则供自己后续不时翻阅,二则分享给读者。传播知识是一件很快乐的事情。 1. 基于相似度的方法(协同过滤) 基于相似度的方法是一类最为成功的推荐算法的代表。其在学术上已被广泛研究,并...
2015-10-08 15:32:00 161
转载 机器学习算法中常用的各种metrics分析
作者在学习机器学习领域的各类算法时,就发现很多闪着智慧光点的各种metrics(度量)。其往往才是一个算法的灵魂,它可以是某种性能的度量,相似度的度量,优化目标的度量等等。作者在此总结学习到的各种度量衡,一者作为一个总结,供自己不时翻阅,二者抛砖引玉。 1. entro...
2015-09-14 11:35:00 1118
转载 hadoop集群配置与MapReduce性能调优
Hadoop安装 1. 安装前的准备 安装hadoop首先需要在机器上安装合适版本的java(最新版本肯定没问题),并从Apache镜像中下载稳定版本的hadoop安装包。在集群中安装hadoop通常需要在所有机器上拷贝一份hadoop安装包,并解压缩到安装目...
2015-07-21 14:38:00 134
转载 spark程序性能调优实践
初学者刚开始写spark程序的时候,往往只注重实现相应的功能,而容易忽略采用何种实现方式能够实现最高的效率。本文后面讲详细阐述作者在实际项目中遇到的spark程序调优问题。 1. 下面这段代码的背景是这样的,panelFeatureMid1类型为RDD[(String,...
2015-05-18 16:49:00 106
转载 spark MLlib决策树
1. 决策树以及它的组合模型是在机器学习中常用的分类和回归方法。决策树结果容易解释,处理分类特征,可拓展到多类。决策树是一个贪婪算法,递归的二分特征空间。决策树预测具有相同的叶子节点的属于同一类标签。每次划分的时候,都从一系列可能的划分中选择最佳的,使得根节点的信息增益最大,argmax(s...
2014-12-12 17:33:00 127
转载 spark配置
1. spark 可以在3处配置系统:spark properties控制大多数应用程序的参数,通过SparkConf对象或者Java系统property设置;环境变量在每一台机器上可以通过conf/spark-env.sh单独设置;Logging可以通过log4j.properties设置...
2014-12-05 16:27:00 84
转载 学习spark机器学习库MLlib
MLlib是spark的机器学习库,其目的是使得机器学习算法更容易使用和扩展。MLlib包含分类、回归、聚类、协同滤波、降维,以及更低层级的优化原语和更高层级的管道API。MLlib分成两个包:spark.mllib包含建立在RDD之上的原始API,spark.ml提供了建立在DataFra...
2014-10-14 17:36:00 342
转载 Httpclient小结
1. HttpClient最主要的函数是执行HTTP方法,包括HTTP请求和响应。用户向HttpClient提供一个request对象,由HttpClient负责将请求发送给目标服务器,随后返回一个response对象或者扔出异常。 2. HTTP请求行包含一个方法名、请求URI和HT...
2014-10-11 18:02:00 114
转载 maven和git使用
在windows下采用IDE 下载scala IDE Eclipse版本,推荐下载scala 2.10版本 打开Eclipse,创建maven project 在New Maven Project选项卡中选择Catalog为All Ca...
2014-10-08 16:25:00 212
转载 Spark概要
1. 在较高层次上,每个spark应用程序包含一个驱动程序,去调用用户的main函数,在集群上执行各种并行操作。spark主要的抽象,是提供了RDD数据类型。RDD数据类型是一组分割在集群上可以被并行操作的元素集合。RDD可以通过HDFS上的文件,驱动程序已有的集合,或对已有的RDD进行变换来...
2014-09-11 11:55:00 160
转载 Hadoop Streaming和awk
Hadoop streaming类似于Unix管道数据流,从标准输入(STDIN)输入,输出到标准输出(STDOUT),数据必须是基于文本的,文本的每一行被认为是一条记录。这也是很多Unix命令,例如:awk的工作方式。在Hadoop streaming中整个数据流就像是一个管道(P...
2014-09-10 15:30:00 389
转载 基于spark的图计算框架GraphX
基于Spark的GraphX.pptx 1. Property Graph:用户定义的有向图,图中的每个顶点和每条边都附加一个用户定义的对象,允许在两个顶点之间并行存在多条边。每个顶点都具有一个64位的唯一标识(VertexID),GraphX并不强制VertexID有序。每条边则由起始和...
2014-09-04 11:24:00 236
转载 scala语言与java的区别
scala支持关联映射,如可以用(key -> value)表示一个键值对 scala中的所有类型都是对象,包括基本数据类型 scala中的case语句用来判断接收的消息,比java中的switch...case...更专注 receive{case ms...
2014-09-03 10:59:00 615
转载 Pregel:基于图分割的图结构数据并行处理
Pregel设计在google的计算机集群结构之上。一个计算机集群(cluster)就是通用PC按rack(一组PC机)构成,Rack之间具有较高的数据传输速度。集群中通常包含一个域名服务器(namenode),采用分布式文件系统,例如:GFS(google 分布式文件系统),HDFS(Had...
2014-01-17 18:50:00 240
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人