大数据
小丽0228
这个作者很懒,什么都没留下…
展开
-
Linux 常用命令
Linux 常用命令nohup和&区别(如何后台运行程序)nohup nohup 命令运行由 Command参数和任何相关的 Arg参数指定的命令,忽略所有挂断(SIGHUP)信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令,添加 & ( 表示“and”的符号)到命令的尾部。 nohup 是 no hang up 的缩写,就是不挂断的意思。 nohup命令:如果你正在运行一个进程,而且你觉得在...原创 2020-06-24 16:26:38 · 138 阅读 · 0 评论 -
Linux 常用命令
Linux 常用命令1.nohup和&区别(如何后台运行程序)nohup nohup 命令运行由 Command参数和任何相关的 Arg参数指定的命令,忽略所有挂断(SIGHUP)信号。在注销后使用 nohup 命令运行后台中的程序。要运行后台中的 nohup 命令,添加 & ( 表示“and”的符号)到命令的尾部。nohup 是 no hang up 的缩写,就是不挂断的意思。nohup命令:如果你正在运行一个进程,而且你觉得在原创 2020-06-24 16:26:08 · 127 阅读 · 0 评论 -
我终于看懂了这一段好爽
val movieAndRating = ratings.map(x=>(x._2,(x._3.toDouble,1))).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)) movieAndRating.take(10).foreach(println)//(2329,(2705.0,640))//获取某电影的总评分和点评人数 ...原创 2019-06-09 10:22:12 · 450 阅读 · 0 评论 -
获取平均评分最高的10部电影
package com.bj.scalacodeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * 平均评分最高的10部电影 */object RDD_Movie_Users_Analyzer2 { def main(args: Array[String]): Uni...原创 2019-06-08 12:40:36 · 2308 阅读 · 0 评论 -
关于Spark的local[N]
local[N]代表在本地运行,使用N个线程,也就是说可以同时执行N个程序,虽然在本地运行,但是因为cpu大多是多个核心,所以使用多个线程会加速执行,那么local[4]就代表4个线程...原创 2019-06-08 10:32:34 · 426 阅读 · 0 评论 -
hive 统计一天基站的掉话率
统计一天的基站掉话率:--建表create table cellinfo(record_time string,imei int,cell array<string>,ph_num int,call_num int,drop_num int,duration int,drop_rate int,net_type string,erl...原创 2019-04-25 15:14:02 · 317 阅读 · 0 评论 -
Hive日期格式转换用法
1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, stringformat])返回值: string说明: 转化UNIX时间戳(从1970-01-0100:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,'y...原创 2019-04-24 19:52:30 · 487 阅读 · 0 评论 -
时间格式 yyyy-MM-dd'T'HH:mm:ss.SSSZ 中的T和Z表示什么
格式模式说明 d月中的某一天。一位数的日期没有前导零。 dd月中的某一天。一位数的日期有一个前导零。 ddd周中某天的缩写名称,在AbbreviatedDayNames中定义。 dddd周中某天的完整名称,在DayNames中定义。 M月份数字。一位数的月份没有前导零。 MM月份数字。一位数的月份有一个前导零。 MMM月份的缩写名称,在Abbr...原创 2019-04-24 19:49:02 · 43644 阅读 · 0 评论 -
Spark-reduce和reduceByKey
Spark-reduce和reduceByKeyhttps://www.wandouip.com/t5i97590/1.reducereduce(binary_function)reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。val c = ...转载 2019-06-08 15:09:28 · 121 阅读 · 0 评论 -
Spark 中 map 与 flatMap 的区别
package com.bj.scalacodeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * Spark 中 map 与 flatMap 的区别 * 总结: * * - Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; ...原创 2019-06-08 17:43:06 · 133 阅读 · 0 评论 -
CentOS6.5下卸载MySql(yum安装)
CentOS6.5下卸载MySql(yum安装)关闭mysql服务 : service mysqld stop查看是否安装mysqlrpm -qa|grep mysql -i因为我是用yum安装的mysql,所以卸载相对简单yum -y remove mysql*再把相关的文件删掉,rm -f /etc/my.cnf.rpmsaverm -rf /var/lib...原创 2019-08-02 21:18:32 · 349 阅读 · 0 评论 -
spark 提交jar包到集群运行报异常 java.net.UnknownHostException: mycluster
1.报错信息:root@mode1 bin]# ./spark-shell --master spark://mode1:70772019-06-28 15:50:43 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classe...原创 2019-06-28 16:02:29 · 2520 阅读 · 0 评论 -
Matei Zaharia(Spark系统作者)博士论文-1 引言
由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战:并行编程问题;为了将应用并行化,需要并行编程模型的支撑。容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。结果就是出现了很多编程模型,首先是MapR...转载 2019-06-23 12:45:41 · 424 阅读 · 0 评论 -
简易电影TOP10分析系统
package com.bj.scalacodeimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject RDD_Movie_Users_Analyzer6 { def main(args: Array[String]): Unit = { //1.配置SparkConf...原创 2019-06-09 17:34:25 · 450 阅读 · 0 评论 -
MapReducec执行过程分几个阶段
宏观上MapReduce可以分为以下三个阶段,如下图1所示。阶段1:input/map/partition/sort/spill阶段2:mapper端merge阶段3:reducer端merge/reduce/output1、split阶段:此阶段,每个输入文件被分片输入到map。如一个文件有200M,默认会被分成2片,因为每片的默认最大值和每块的默认值128M...转载 2019-04-24 18:49:13 · 8891 阅读 · 0 评论 -
mapreduce处理流程
wordcount的处理过程来进行演示mapreduce处理流程如下图:1. 输入分片(input split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组,输入分片(input ...原创 2019-04-09 21:11:49 · 1390 阅读 · 0 评论 -
mapreduce处理的数据是什么结构的?每个阶段有什么形式?
mapreduce处理的数据的结构:map:(k1,v1)->list(k2,v2)reduce:(k2,list(v2))->list(k3,v3)1、Map阶段的任务处理如下: 1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me&g...原创 2019-04-09 21:00:07 · 2004 阅读 · 0 评论 -
mapreduce原语是什么?怎么理解?
相同key的键值对为一组调用一次reduce方法,方法内迭代这一组数据进行计算。理解如下示例:数单词游戏:map阶段:reduce阶段:原创 2019-04-09 19:57:18 · 505 阅读 · 0 评论 -
在HDFS-HA的基础上搭建:ResourceManager-HA
在HDFS-HA的基础上搭建:etc/hadoop/mapred-site.xml:<configuration><property><name>mapreduce.framework.name</name><value>yarn</value>classic+lo...原创 2019-04-11 20:17:44 · 226 阅读 · 0 评论 -
HADOOP 完全分布式搭建
1、node1,2,3,4做免密钥登录2、安装和配置jdk2.1 将node1上的/etc/profile通过网络拷贝到node2、3、4 在node2、3、4上执行. /etc/profile让它生效3、解压hadoop-2.6.5.tar.gz到/opt目录4、在hadoop-env.sh中:主要配置jdk目录 export JAVA_HOME=/usr/java/j...原创 2019-04-11 20:14:16 · 132 阅读 · 0 评论 -
Hadoop-2.7.3源码分析:MapReduce作业提交源码跟踪
1、提交JobMapReduce程序框架请参考http://blog.csdn.net/chengyuqiang/article/details/72804007@Override public int run(String[] args) throws Exception { //读取配置文件 Configuration conf = getC...转载 2019-04-11 13:21:14 · 155 阅读 · 0 评论 -
HDFS架构
NameNode存储元数据,相应客户端的请求元数据存储:fsimage+edits log工作时,数据在哪儿?加载到内存元数据存储哪些信息?文件名称大小权限时间block信息block位置信息(不存储)通过dataNode的心跳上报上来,动态收集。DataNode存储block信息存储模型:block块按照字节线性切分block块分散存...原创 2019-04-07 20:05:37 · 94 阅读 · 0 评论 -
HDFS中数据存储的模式
NameNode管理文件系统的命名空间:1、文件和目录的元数据: 文件的block副本个数 修改和访问的时间 访问权限 block大小以及组成文件的block信息2、以两种方式在NameNode本地进行持久化: 命名空间镜像文件(fsimage)和编辑日志(edits log)。3、fsimage文件不记录每个block所在的DataNode...原创 2019-04-07 20:00:06 · 896 阅读 · 0 评论 -
mapreduce作业提交流程
a、作业提交client调用Job.waitForCompletion方法,向整个集群提交MapReduce作业(第1步)。新的作业ID(应用ID)由资源管理分配(第2步)。作业的client核实作业的输出,计算输入的split,将作业的资源(包括Jar包,配置文件,split信息)拷贝给HDFS(第3步)。最后,通过调用资源管理器的YarnClient.submitApplication...原创 2019-04-09 21:31:57 · 616 阅读 · 0 评论 -
hadoop面试题
1、介绍一下Hadoop的框架存储hdfs,计算框架MapReduce,资源管理Yarn2、简单说下HDFS的读写流程a、客户端发送请求,调用DistributedFileSystem API的open方法发送请求到Namenode,获取block的位置信息,因为真正的block是存在Datanode节点上的,而 namenode里存放block位置信息的元数据。b、Name...原创 2019-04-09 21:38:10 · 169 阅读 · 0 评论 -
Underlying cause: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException : Communications link fail
连接MySQL数据库出现com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure解决办法1.修改wait_timeout的参数值 查看wait_timeout的值,命令:show global variables like 'wait_timeout'; ...原创 2019-04-24 13:35:01 · 8165 阅读 · 3 评论 -
HIVE体系结构
1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体系结构Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Clien...原创 2019-04-24 12:22:59 · 798 阅读 · 0 评论 -
HADOOP端口一览表
转载 2019-04-24 12:06:12 · 796 阅读 · 0 评论 -
深入一致性哈希(Consistent Hashing)算法原理
深入一致性哈希(Consistent Hashing)算法原理,并附100行代码实现转自:https://my.oschina.net/yaohonv/blog/1610096一致性哈希Consistent HashJava任务调度八年Java开发的感悟:什么才是程序员的立身之本 >>> 本文为实现分布式任务调度系统中用到的一些关键技术点分享——C...原创 2019-04-22 21:30:58 · 469 阅读 · 1 评论 -
Hadoop中的各种排序
1:shuffle阶段的排序(部分排序)shuffle阶段的排序可以理解成两部分,一个是对spill进行分区时,由于一个分区包含多个key值,所以要对分区内的<key,value>按照key进行排序,即key值相同的一串<key,value>存放在一起,这样一个partition内按照key值整体有序了。第二部分并不是排序,而是进行merge,merge有两次,一次...原创 2019-04-14 20:34:00 · 493 阅读 · 0 评论 -
wordcount
package com.bjsxt.mr.wordcount; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import or...原创 2019-04-11 08:49:18 · 124 阅读 · 0 评论