chigui2571-CSDN博客

转载工作笔记

Matrix Completion、Dual Random Projection (对偶随机投影) [iDST 金榕 2015.12中国大数据技术大会] 一、TensorFlow线性模型使用TF.Learn API来解决二分类问题。给定人口统计数据例如：一个人的年龄、性别、教育程度、职...

2017-06-27 20:01:00 196

转载 Hive进阶

Hive表模式设计理想的分区方案不应该导致产生太多的分区和文件夹目录，而且每个分区下包含文件大小分布均匀。对Hive表进行join操作时，需要考虑连接键值是否是表的唯一键。在按天调度的任务中，中间表尽可能采用按天分区的方案。分区表分桶的优点：因为桶的数量是固定的，所以它没有数据波动；如果...

2017-04-28 17:13:00 182

转载 Hive概要

Hive综述 Hive提供了一门简单的基于SQL的查询语言HQL，使得熟悉SQL的使用者可以很容易的执行随机查询和数据分析。同时HQL也支持传统的MapReduce编程模式，以扩展语言内建的功能，实现复杂的数据分析逻辑。对于大多数查询，Hive编译器将产生多个map-reduce jo...

2016-01-14 11:36:00 183

转载 parquet文件

1. Parquet文件格式选用thrift完成文件元数据的序列化和反序列化。在parquet-format项目的thrift目录下，文件parquet.thrift详细定义了parquet文件的元数据类型。下面这张图较好的描述了parquet元数据的数据结构。 ...

2015-12-17 14:32:00 641

转载列式存储 Parquet

本文涉及的Parquet的一些基本原理，可以参考网页：http://www.infoq.com/cn/articles/in-depth-analysis-of-parquet-column-storage-format 1. 最初创建Parquet的目的是：要在Ha...

2015-10-16 11:12:00 621

转载推荐算法review

本文将按照作者学习的顺序，对推荐算法进行一个综述性的介绍，可能会有些跳跃性。一则供自己后续不时翻阅，二则分享给读者。传播知识是一件很快乐的事情。 1. 基于相似度的方法（协同过滤）基于相似度的方法是一类最为成功的推荐算法的代表。其在学术上已被广泛研究，并...

2015-10-08 15:32:00 181

转载机器学习算法中常用的各种metrics分析

作者在学习机器学习领域的各类算法时，就发现很多闪着智慧光点的各种metrics（度量）。其往往才是一个算法的灵魂，它可以是某种性能的度量，相似度的度量，优化目标的度量等等。作者在此总结学习到的各种度量衡，一者作为一个总结，供自己不时翻阅，二者抛砖引玉。 1. entro...

2015-09-14 11:35:00 1189

转载 hadoop集群配置与MapReduce性能调优

Hadoop安装 1. 安装前的准备安装hadoop首先需要在机器上安装合适版本的java（最新版本肯定没问题），并从Apache镜像中下载稳定版本的hadoop安装包。在集群中安装hadoop通常需要在所有机器上拷贝一份hadoop安装包，并解压缩到安装目...

2015-07-21 14:38:00 151

转载 spark程序性能调优实践

初学者刚开始写spark程序的时候，往往只注重实现相应的功能，而容易忽略采用何种实现方式能够实现最高的效率。本文后面讲详细阐述作者在实际项目中遇到的spark程序调优问题。 1. 下面这段代码的背景是这样的，panelFeatureMid1类型为RDD[(String,...

2015-05-18 16:49:00 122

转载 spark MLlib决策树

1. 决策树以及它的组合模型是在机器学习中常用的分类和回归方法。决策树结果容易解释，处理分类特征，可拓展到多类。决策树是一个贪婪算法，递归的二分特征空间。决策树预测具有相同的叶子节点的属于同一类标签。每次划分的时候，都从一系列可能的划分中选择最佳的，使得根节点的信息增益最大，argmax(s...

2014-12-12 17:33:00 143

转载 spark配置

1. spark 可以在3处配置系统：spark properties控制大多数应用程序的参数，通过SparkConf对象或者Java系统property设置；环境变量在每一台机器上可以通过conf/spark-env.sh单独设置；Logging可以通过log4j.properties设置...

2014-12-05 16:27:00 97

转载学习spark机器学习库MLlib

MLlib是spark的机器学习库，其目的是使得机器学习算法更容易使用和扩展。MLlib包含分类、回归、聚类、协同滤波、降维，以及更低层级的优化原语和更高层级的管道API。MLlib分成两个包：spark.mllib包含建立在RDD之上的原始API，spark.ml提供了建立在DataFra...

2014-10-14 17:36:00 392

转载 Httpclient小结

1. HttpClient最主要的函数是执行HTTP方法，包括HTTP请求和响应。用户向HttpClient提供一个request对象，由HttpClient负责将请求发送给目标服务器，随后返回一个response对象或者扔出异常。 2. HTTP请求行包含一个方法名、请求URI和HT...

2014-10-11 18:02:00 133

转载 maven和git使用

在windows下采用IDE 下载scala IDE Eclipse版本，推荐下载scala 2.10版本打开Eclipse，创建maven project 在New Maven Project选项卡中选择Catalog为All Ca...

2014-10-08 16:25:00 240

转载 Spark概要

1. 在较高层次上，每个spark应用程序包含一个驱动程序，去调用用户的main函数，在集群上执行各种并行操作。spark主要的抽象，是提供了RDD数据类型。RDD数据类型是一组分割在集群上可以被并行操作的元素集合。RDD可以通过HDFS上的文件，驱动程序已有的集合，或对已有的RDD进行变换来...

2014-09-11 11:55:00 184

转载 Hadoop Streaming和awk

Hadoop streaming类似于Unix管道数据流，从标准输入(STDIN)输入，输出到标准输出(STDOUT)，数据必须是基于文本的，文本的每一行被认为是一条记录。这也是很多Unix命令，例如：awk的工作方式。在Hadoop streaming中整个数据流就像是一个管道(P...

2014-09-10 15:30:00 425

转载基于spark的图计算框架GraphX

基于Spark的GraphX.pptx 1. Property Graph：用户定义的有向图，图中的每个顶点和每条边都附加一个用户定义的对象，允许在两个顶点之间并行存在多条边。每个顶点都具有一个64位的唯一标识(VertexID)，GraphX并不强制VertexID有序。每条边则由起始和...

2014-09-04 11:24:00 261

转载 scala语言与java的区别

scala支持关联映射，如可以用(key -> value)表示一个键值对 scala中的所有类型都是对象，包括基本数据类型 scala中的case语句用来判断接收的消息，比java中的switch...case...更专注 receive{case ms...

2014-09-03 10:59:00 643

转载 Pregel：基于图分割的图结构数据并行处理

Pregel设计在google的计算机集群结构之上。一个计算机集群（cluster）就是通用PC按rack（一组PC机）构成，Rack之间具有较高的数据传输速度。集群中通常包含一个域名服务器（namenode），采用分布式文件系统，例如：GFS（google 分布式文件系统），HDFS（Had...

2014-01-17 18:50:00 271