大数据
spider_d
研究生一枚
展开
-
Hadoop Streaming的使用
Hadoop MapReduce和HDFS采用Java实现,默认提供Java编程接口,另外提供了C++编程接口和Streaming框架。Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。 Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Jav原创 2017-02-13 17:37:21 · 1264 阅读 · 0 评论 -
pandas常用函数
[python] view plain copyimport numpy as np import pandas as pd import matplotlib.pyplot as plt ---------------numpy----------------------- arr = np.array([1,2,3], dtype转载 2017-07-13 21:38:09 · 1079 阅读 · 0 评论 -
数据挖掘相关的八个问题
NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出原创 2017-06-06 15:00:25 · 2082 阅读 · 0 评论 -
Hive 中的 LEFT SEMI JOIN 与 JOIN ON 的前世今生
hive 的 join 类型有好几种,其实都是把 MR 中的几种方式都封装实现了,其中 join on、left semi join 算是里边具有代表性,且使用频率较高的 join 方式。1、联系他们都是 hive join 方式的一种,join on 属于 common join(shuffle join/reduce join),而 left semi join 则属于 map j转载 2017-05-27 13:54:46 · 2351 阅读 · 2 评论 -
Hive函数大全
原文地址:http://blog.csdn.net/wisgood/article/details/17376393一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: Hive>selec转载 2017-03-29 16:34:02 · 298 阅读 · 0 评论 -
Hive的相关总结
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列原创 2017-03-27 16:17:28 · 250 阅读 · 0 评论 -
mongoDB常用命令
mongoDB常用命令安装mongoDB官网下载安装(Windows安装方法)基础知识集合——对应关系数据库中的表文档——对应关系数据库中的行启动数据库服务定位到安装目录下的bin文件夹里后> mongod --dbpath ../data/db如没有data/db文件夹,需先创建,dbpath用于指定数据存放位置开启一个客户端访问数据库同样的bin原创 2017-03-06 15:51:17 · 304 阅读 · 0 评论 -
hadoop stream 参数详解
原文地址:streaming" style="color:rgb(202,0,0); text-decoration:none">Hadoop streaming作者:tivoli_chen1 Hadoop streaming[html] view plain copyHadoop streaming是和hadoop一起发布的实用程序转载 2017-03-03 14:15:43 · 1089 阅读 · 0 评论 -
python中用hadoop提交任务的方法以及要注意的问题
python中用hadoop提交任务1)Streaming简介 Hadoop的MapReduce和HDFS均采用Java进行实现,默认提供Java编程接口,用户通过这些编程接口,可以定义map、reduce函数等等。 但是如果希望使用其他语言编写map、reduce函数怎么办呢? Hadoop提供了一个框架Streaming,Streaming的原理是用Java实现一原创 2017-03-03 11:16:54 · 1468 阅读 · 0 评论 -
Hbase原理、基本概念、基本架构
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服转载 2017-07-09 14:41:24 · 459 阅读 · 0 评论