2016年12月_SunWuKong_Hadoop

转载 R提高篇(五): 描述性统计分析

数据作为信息的载体，要分析数据中包含的主要信息,即要分析数据的主要特征（即数据的数字特征), 对于数据的数字特征, 包含数据的集中位置、分散程度和数据分布，常用统计项目如下：集中趋势统计量: 均值（Mean)、中位数(Median)、众数(Mode)、百分位数离散趋势统计量：标准差（sd)、方差（var)、极差（range)、变异系数(CV)、标准误、样本校正平方和（CSS）、样本未校正...

2016-12-30 10:40:54 3405

转载 R提高篇(四): 数据管理二

目录：数学函数统计函数应用示例控制流数学函数ceiling(x): 大于等于 x 的最小整数, 如： ceiling(3.213) --> 4 floor(x): 小于等于 x 的最大整数，如： floor(3.6534) --> 3 trunc(x): 取x的整数部分，如： trunc(5.999) --...

2016-12-30 10:40:25 639

转载 R提高篇(三): 数据管理一

目录：创建新变量变量重编码日期值数据排序数据集合并数据子集随机取样创建新变量算术运算函数：x%%y 【求余 x mod y, 5%%2的结果为1】， x%/%y 【整数除法，5% / %2 结果为2】， ^或 ** 求幂如下示例数据，在对象中增加平均、合计变量（场景不大合适，主要为了说明问题）有多种方式来实现新增变量的处理，推荐使用 transf...

2016-12-30 10:39:52 291

转载 R提高篇(二): 图形初阶

目录：图形示例图形参数符号、线条颜色文本属性尺寸与边界自定义标题自定义坐标轴图例文本标注图形组合图形示例如下代码描述病人对两种药物五个剂量水平上的响应情况 > mydata <- data.frame(dose=numeric(0),drugA=numeric(0),drugB=numeric(0))> fix(myd...

2016-12-30 10:39:21 377

转载 R提高篇(一): 输入输出

目录：文本输出图形输出数据输入数据框输出文本导入Excel导入文本输出语法： sink(file = NULL, append = FALSE, type = c("output", "message"), split = FALSE)默认情况，如果文件已经存在，则内容会被覆盖，如果 append = TRUE 可以将文本追加到文件后split = TR

2016-12-30 10:38:54 443

转载 R(八): R分词统计-老九门

分析文本内容基本的步骤：提取文本中的词语 -> 统计词语频率 -> 词频属性可视化。词频：能反映词语在文本中的重要性，一般越重要的词语，在文本中出现的次数就会越多。词云：让词语的频率属性可视化，更加直观清晰。文本下载地址（http://www.yuandn.com/booktxt/59797/#download 效果图是将老九门12章后面内容删除后结果）目录：效果示例图分词包介绍及

2016-12-30 10:38:15 1485

第四章通过REmap包完成基于map分布图示例，前面提到REmap基于Echart2.0, 一方面在移动终端适应效果差，另一方面REmap提供的热力图仅支持全国及省市大版块map，基于上面的原因，参考 http://echarts.baidu.com/examples.html#chart-type-heatmap ，利用第四章清洗后的数据结合Echart3热力图控件开发完整可缩放地图的热力分布。

2016-12-30 10:37:43 3434

转载 R(五): R常用函数

工作笔记记录，会持续更新....目录：applytapplylapplysapplymergesubstr、substring、strsplit、unlist、paste、paste0、nchartableapply函数：apply：apply的中文意思是应用，这个函数的意思是通过将一个函数应用到矩阵或数组中，返回一个向量或数组语法：apply(X, MARGI

2016-12-30 10:37:15 472

转载 R(六): RODBC 访问SqlServer

在我的实际工作中，数据来源一方面是关系型数据库MS SqlServer, 别一方面是HBase。本节主要介绍通过RODBC访问MS SqlServer 安装配置，参见资料（https://msdn.microsoft.com/en-us/library/hh568454(v=sql.110).aspx），请注意：下载的msodbc 的版本与 unixODBC的版本之间有强制的对应关系，参见：（

2016-12-30 10:36:46 684

转载 R(四): R开发实例-map分布图

前几章对R语言的运行原理、基本语法、数据类型、环境部署等基础知识作了简单介绍，本节将结合具体案例进行验证测试。案例场景：从互联网下载全国三甲医院数据，以地图作为背景，展现各医院在地图上的分布图。全国三甲医院数据来源 http://www.wxmp.cn/cms/detail-51610-23480-1.html 目录：map包研究效果图数据清洗R开发R脚本部署map包研究

2016-12-30 10:36:18 2375

转载 R(三): R包原理及安装

包（package）是多个函数的集合，常作为分享代码的基本单元，代码封装成包可以方便其他用户使用。越来越多的R包正在由世界上不同的人所创建并分发，这些分发的R包，可以从CRAN 或 github 上获取，由于向 CRAN 提交包审核非常严格，有些开发者并没有将自己开发的R包提至CRAN的意向，通过 devtools 可以轻松从 github上下载安装。包的生命周期一般会经历 source、bund

2016-12-30 10:35:43 1812

转载 R(二): http与R脚本通讯环境安装

结合实际的工作环境，在开始R研究的时候，首先着手收集的就是能以Web方式发布R运行结果的基础框架，无耐的是，R一直以来常使用于个人电脑的客户端程序上，大家习惯性的下载R安装包，在自己的电脑上安装 --> 写算法 --> 运行 --> 以贴图或者文档的形式发表自己的作品。花了较长时间，终于找着了一套框架基本满足要求，即FastRWeb (Fast Interactive Web Framework

2016-12-30 10:35:20 1065

转载 R(一): R基础知识

R 是一门拥有统计分析及作图功能的免费软件，主要用于数学建模、统计计算、数据处理、可视化等方向。据 IEEE Spectrum发布的2016年编程语言前10位排名来看，R语言由2015年排名第6位上升级2016年的第5位。目前在CRAN 上发布的算法包已经超过8000+多个。R体系涉及到高等数据、概率学、统计学、IT技术等多种知识的综合应用，虽然看起来超级复杂，但学过程还是得从基础开始。

2016-12-30 10:34:48 2353

转载 Spark(四): Spark-sql 读hbase

SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表，具体就是通过hive-hbase-handler, 具体配置参见：Hive(五):hive与hbase整合目录：SparkSql 访问 hbase配置测试验证SparkSql 访问 hbase配置: 拷贝HBase的相关jar包到Spark节点上的$SPA

2016-12-30 10:32:35 889

转载 Spark(三): 安装与配置

参见 HDP2.4安装(五)：集群及组件安装，安装配置的spark版本为1.6, 在已安装HBase、hadoop集群的基础上通过 ambari 自动安装Spark集群，基于hadoop yarn 的运行模式。目录：Spark集群安装参数配置测试验证Spark集群安装：在ambari -service 界面选择 “add Service",如图：在弹出界面

2016-12-30 10:32:12 562

转载 Spark(二): 内存管理

Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1.5和之前版本里，两者是静态配置的，不支持借用，spark1.6 对内存管理模块进行了优化，通过内存

2016-12-30 10:31:42 532

转载 Spark(一): 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数

2016-12-30 10:31:10 1491

转载 Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品，单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标

2016-12-30 10:29:13 1124

转载 Presto集群安装配置

Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator（调度节点）和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker目录：环境基本要求集群规划连接器安装步骤config.propertiesnode.propertie

2016-12-30 10:28:14 718

转载 Presto实现原理和美团的使用实践

Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前，Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架，是专为批处理设计的。但随着数据越来越多，使用Hive进行一个简单的数据查询可能要花费几分到几小时，显然不能满足交互式查询的需求。Faceb

2016-12-30 10:24:50 1310

转载 history

linux的bash内部命令history就可以显示命令行的命令历史，默认环境执行 history命令后，通常只会显示已执行命令的序号和命令本身。如果想要查看命令历史的时间戳，那么可以执行：# export HISTTIMEFORMAT='%F %T '# history | more1 2008-08-05 19:02:39 service network restart2 2008

2016-12-30 10:19:48 299

转载 linux下不同服务器间数据传输(rcp,scp,rsync,ftp,sftp,lftp,wget,curl)

rcprcp不是一种安全的的传输文件的方式，rcp通过rsh（rsh见下面）来执行远程命令，要使用rcp必须经过一些配置，现在rcp已经被scp取代了，常用scp来进行文件传输。要使用rcp，需要具备以下条件：（1）如果系统中有/etc/hosts 文件，应确保该文件包含要与之进行通信的远程主机信息：internet_address official_name alias。例

2016-12-28 09:38:06 1410

转载 FTP、Samba、NFS、SCP、RSYNC

FTP设置客户端开机自动挂载SCPSambaSamba是在Linux和UNIX系统上实现SMB协议的一个免费软件，由服务器及客户端程序构成。SMB（Server Messages

2016-12-28 09:34:21 753

转载 impala数据导入汇总

1. put/distcphdfs dfs -put 从本地上传到hdfs2.load data[cdh2:21000] > select count(*) from tab1;Query: select count(*) from tab1+----------+| count(*) |+----------+| 3279912 |-----创建空表

2016-12-23 18:45:13 692

转载 10个有用的Linux命令

1. 如何暂停一个正在运行的进程，让其在后台运行？答案：为了停止正在运行的进程，让其在后台运行，我们可以使用组合键 Ctrl+Z。2. 什么是安装Linux所需的最小分区数量，以及如何查看系统启动信息？答案：单独一个/root分区足以执行所有的系统任务，但是强烈建议安装Linux时，需要至少三个分区：/root,/boot,/swap。一个IDE硬盘驱动器支持高达63个分区

2016-12-23 11:19:28 289

转载 Linux下查看内存的使用情况

Linux下使用什么方法来查看内存的使用情况呢？我想监视Linux系统的内存使用情况，在Linux下有哪些视图或者命令行工具可用呢？在做Linux系统优化的时候，物理内存是其中最重要的一方面。自然的，Linux也提供了非常多的方法来监控宝贵的内存资源的使用情况。下面的清单详细的列出了Linux系统下通过视图工具或命令行来查看内存使用情况的各种方法一、free　　对于free

2016-12-23 11:08:39 851

转载 ifconfig, route以及ip指令的实战应用

一: 三个指令的使用说明;1: ifconfig可以完成开启/关闭网卡接口; 设置子网掩码及广播地址; 设置网卡接口的mtu;2: route可以查看路由; 增加路由; 修改路由;3; ip可以完成ifconfig(ip address)以及route(ip route)的所有功能, 还额外增加了些功能, 个人感觉ifconfig以及route在日常比较常用到, ip这个指

2016-12-23 10:59:48 415

转载 Linux 的用户和组命令

本文仅为个人学习笔记总结及一些中英文互译，仅作学习参考之用，希望能给初入门者以帮助。 useradd 命令 useradd - create a new user or update default new user information 创建一个新账户或者更新默认新账户的信息 -c, --comment 添加账户时对该账户的描述 -d, -

2016-12-23 10:57:05 330

转载 Linux命令之cd

cd 命令说明：切换进入指定目录使用方式： cd [dirName] cd [相对路径或绝对路径] .代表此层目录 ..代表上层目录 -代表前一个工作目录～代表“目前用户身份”所在的主文件夹命令实践： [root@linuxidc ~]# cd /home/lin

2016-12-23 10:54:43 298

转载 Linux命令之cat

cat命令说明：查看文件内容，也可以给文件追加内容到结尾语法： cat [-AbEnTv] 参数： -A ：相当于-vET的整合参数，可以列出一些特殊字符，而不是空白而已 -b ：列出行号，仅对非空行号显示，空白行不标记行号 -E ：将结尾的断行字符$显示出来 -n ：打印出行号，连同空白行也有行号，与-b参数不同

2016-12-23 10:53:50 304

转载 Linux之cp/scp命令＋scp命令详解

名称：cp使用权限：所有使用者使用方式：cp [options] source destcp [options] source... directory说明：将一个档案拷贝至另一档案，或将数个档案拷贝至另一目录。把计-a 尽可能将档案状态、权限等资料都照原状予以复制。-r 若 source 中含有目录名，则将目录下之档案亦皆依序拷贝至

2016-12-23 10:53:00 403

原创问题

1.昨天遇到的问题，rz命令传输大文件，快传完了，就断开了，附图：解决办法：rz -b file2.今天一大早就遇到了一个小问题，换行符！附图：解决办法：见另一博客http://blog.csdn.net/sunwukong_hadoop/article/details/538354393.复制文件夹下的全部内容到另一文件夹：比如要把/home/usera拷贝到/...

2016-12-23 09:33:04 195

转载 Windows文件换行符转Linux换行符

操作系统文件换行符首先介绍下，在ASCII中存在这样两个字符CR（编码为13）和 LF（编码为10），在编程中我们一般称其分别为'\r'和'\n'。他们被用来作为换行标志，但在不同系统中换行标志又不一样。下面是不同操作系统采用不同的换行符：Unix和类Unix（如Linux）：换行符采用 \nWindows和MS-DOS：换行符采用 \r\nMac OS X之前

2016-12-23 09:31:57 393

转载 awk学习

awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息awk处理过程: 依次对每一行进行处理，然后输出awk命令形式:awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v] 大参数，-F指定分隔符，-f调用脚本，-v定义变量 va

2016-12-22 15:10:15 274

转载 linux awk命令详解

史上最好用简介awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。awk其名称得自于它

2016-12-22 12:17:14 257

转载 impala-shell 命令行选项

impala-shell 命令行选项你可以在启动 impala-shell 时设置以下选项，用于修改命令执行环境。 Note:这些选项与 impalad 守护进程的配置选项不同。关于 impalad 选项，参见 Modifying Impala Startup Options。选项描述-B or --deli

2016-12-22 09:19:07 882

转载 ORACLE中RECORD、VARRAY、TABLE的使用详解

1 说明1.1 RECORD定义记录数据类型。它类似于C语言中的结构数据类型(STRUCTURE)，PL/SQL提供了将几个相关的、分离的、基本数据类型的变量组成一个整体的方法，即RECORD复合数据类型。在使用记录数据类型变量时，需要在声明部分先定义记录的组成、记录的变量，然后在执行部分引用该记录变量本身或其中的成员。定义记录数据类

2016-12-20 15:41:15 309

转载 PLSQL_性能优化系列10_Oracle Array数据组优化

一、摘要集合是Oracle开发中经常遇到的情况，Oracle集合分为三种情况：索引表集合(index by table)、嵌套表集合(nested table)、可变集合(varry table)。PL/SQL中没有数组的概念，他的集合数据类型和数组是相似的。其中varray table的元素是有数量限制的，index_by table和nexted table是没有这

2016-12-20 15:40:05 388

转载 Oracle 数组的学习

帮助解释一下。代码段如下：复制代码代码如下:declare type t_indexby is table of number index by binary_integer; type t_nesteed is table of number; type t_varray is varray(10) of number; v_indexby t_indexb

2016-12-20 15:37:29 358

转载 oracle里的extend是什么意思?解决方案

oracle里的extend是什么意思?数组.extend; 干什么用的?------解决方案--------------------扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 co

2016-12-20 15:33:33 8517 2

空空如也

空空如也