大数据
文章平均质量分 75
lemonlhy
这个作者很懒,什么都没留下…
展开
-
海量的数据面试题
1、给个超过100G的logfile, log中存着IP地址, 设计算法找到出现次数最多的IP地址?第一题:首先我们的思路就是利用哈希进行文件的切分,我们把100G大小的logfile分为1000份,那么下来差不多没一个文件就是100M左右,然后再利用哈希函数除留余数的方法分配到对应的编号文件中,然后得出每个文件中出现次数最多的IP,然后堆排序取得这1000个ip中出现次数最多的。2、与上题条件相...原创 2018-02-26 09:43:48 · 311 阅读 · 0 评论 -
使用KafkaUtil以direct方式获取kafka的数据时遇到的问题
使用KafkaUtil以direct方式获取kafka的数据时遇到的问题报的是nio.channels.closeException类似的错误原因是我的server.properties配置文件里面zookeeper的端口配错了正确的代码是package kafkaTestimport kafka.serializer.StringDecoderimport org.apache.spar...原创 2018-05-13 16:27:13 · 902 阅读 · 0 评论 -
hadoop关键进程
hadoop集群中主要进程有master: NameNode, ResourceManager,slaves: DataNode, NodeManager, RunJar, MRAppMaster,YarnChild其中 RunJar, MRAppMaster,YarnChild与随着某个job的创建而创建,随着job的完成而终止。它们的作用分别是:RunJar:完成job的初始化,包括...转载 2018-05-04 20:50:28 · 327 阅读 · 0 评论 -
[转载]service mysqld start的问题
问题描述:启动MySQL后,出现连接不上,报 [ERROR] InnoDB: Unable to lock ./ibdata1, error: 11[root@mysql01 ~]# service mysql startStarting MySQL [ OK ][root@mysql01 ~]# mysq...转载 2018-05-04 20:07:44 · 2721 阅读 · 0 评论 -
利用scala实现YARN的RPC
根据scala实现YARN的RPC功能YARN主要分为ResourceManager和DataManagerResourceManager主要负责接收DataManager的请求,例如注册,资源调度等DataManager每隔一段时间会进行心跳信息的反馈给RM,RM判断DataManager是否还在线实现思路:一.首先创建两个object 1 MyNodeManager 2 MyR...原创 2018-04-19 21:26:20 · 293 阅读 · 0 评论 -
用java实现spark的rdd接口
package sparkcore.day2.lesson01;import org.apache.spark.HashPartitioner;import org.apache.spark.Partitioner;import org.apache.spark.RangePartitioner;import org.apache.spark.SparkConf;import org....原创 2018-04-24 08:51:08 · 1007 阅读 · 0 评论 -
用scala实现Spark的RDD接口
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDobject Spark { final val conf:SparkConf=new SparkConf().setAppName("Spark").setMaster("local")...原创 2018-04-24 08:49:50 · 683 阅读 · 0 评论 -
hive练习之[影评案例]
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, OccupationString, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码 2、movies.dat 数据格式为: 2::Jumanji(1995)::A...原创 2018-04-13 08:43:29 · 1694 阅读 · 0 评论 -
hive高级操作
Stay hungry Stay foolish -- http://blog.csdn.net/zhongqi2513Hive 高级应用目录1、 Hive shell 操作 ...................................................................................................................转载 2018-04-11 21:17:56 · 418 阅读 · 0 评论 -
从HDFS读取文件,把记录存到Hbase的java API操作
从HDFS读取文件,文件的数据格式类似如下computer,xuzheng,54,52,86,91,42computer,huangbo,85,42,96,38english,zhaobenshan,54,52,86,91,42,85,75english,liuyifei,85,41,75,21,85,96,14algorithm,liuyifei,75,85,62,48,54,96,15数据的意...原创 2018-03-31 18:15:37 · 2084 阅读 · 1 评论 -
Hbase的java API
HbaseApi.javapackage com.carssun.hbase.api;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.had...原创 2018-03-30 10:50:28 · 440 阅读 · 0 评论 -
什么是Paxos算法
Paxos算法是Lesile Lamport提出的一种基于消息传递且具有高度容错特性的一致性算法。分布式系统中的节点通信存在两种模型: 共享内存和消息传递。基于消息传递通信模型的分布式系统,不可避免会发生进程变慢被杀死,消息延迟、丢失、重复等问题,Paxos算法就是在存在以上异常的情况下仍能保持一致性的协议。Paxos算法使用一个希腊故事来描述,在Paxos中,存在三种角色,分别为Proposer...原创 2018-03-23 22:36:05 · 498 阅读 · 0 评论 -
MapReduce-MyOutputFormat
MainTest.javapackage MyoutputFormat;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;import...原创 2018-03-19 23:24:38 · 125 阅读 · 0 评论 -
MapReduce-myInputFormat
MainTest.javapackage MyinputFormat;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;import o...原创 2018-03-19 23:20:25 · 111 阅读 · 0 评论 -
Zookeeper循环注册监听器
Zookeeper中的监听器只执行一次,需要在watcher类中重写process方法,以达到重复注册监听器的效果MyWatcher.javapackage watch;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeepe...原创 2018-03-22 21:42:56 · 2845 阅读 · 1 评论 -
关于ZooKeeper的四个逻辑思维题目
编程思维训练 1、级联查看某节点下所有节点及节点值 2、删除一个节点,不管有有没有任何子节点 3、级联创建任意节点 4、清空子节点package HomeWork;import java.util.List;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.ZooDefs.Ids;import or...原创 2018-03-22 21:11:58 · 255 阅读 · 0 评论 -
利用Spark把数据写进mysql数据库时候遇到的问题
写入数据库的方式是:df2.write.mode(SaveMode.Append).jdbc(url,"student",properties)impossible to write to binary log since BINLOG_FORMAT = STATEMENT这是因为,mysql默认的binlog_format是STATEMENT。从 MySQL 5.1.12 开始,可以用以下三种模...原创 2018-05-15 14:54:09 · 1554 阅读 · 0 评论