自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 kafka初体验(二)

kafka的数据单元称为消息,消息是由字节数组组成。键:字节数组,决定消息写入哪个分区消息分批次传输可以减少网络开销。批次越大单位时间内处理的消息越多,单个消息的传输时间越长。将批次数据压缩可以提升数据的传输和存储能力,但要做更多的计算处理。kafka消息按主题进行分类。每个主题分为若干个分区。消息以追加的形式写入分区。以先入先出的顺序读取。(由于一个主题有多个分区,所以无法保证主...

2019-11-16 11:23:17 140

原创 kafka初体验 (一)

开启自带的zookeepernohup bin/zookeeper-server-start.sh config/zookeeper.properties > zookeeper-run.log 2>&1 &启动kafkanohup bin/kafka-server-start.sh config/server.properties > kafka-r...

2019-11-15 22:47:03 259

原创 hive orderby distribute by sortby 和cluster by区别

1.创建一个学生表create table student(sno int,sname string,sex string,sage int,sdept string)row format delimited fields terminated by ','stored as textfile;2.从hdfs导入数据到表中load data inpath '/hivedata/stud...

2019-10-30 11:51:28 206

原创 spark 机器学习包实现KMeans

KMeans将数据分为K类。第一次随机选择k个点做质心。求每个数据与每个质心(迪卡尔积)的欧式距离,并选择最短距离。如此将数据分为k类。每类数据取平均值将结果作为质心重新计算欧式距离。直到质心基本不变(误差平方和最小)为止。public class KMean { public static void main(String[] args) { if(args.leng...

2018-09-29 15:28:46 261

原创 spark统计共同好友

数据格式 <user1>,<frend1>,<frend2>.....<frendn>eg: aa,bb,cc,dd,ee      bb,aa,dd,ee      cc,aa      dd,aa,bb      ee,aa,bb通过flatmaptopair将数据变成以<user1frenfi,frend1 fre...

2018-09-29 15:15:21 366

原创 Hadoop学习之HDFS

     Hadoop框架的两大核心部件是HDFS和MapReduce。HDFS是 Hadoop Distributed File System的缩写,是Java实现的、分布式的、可横向扩展的文件系统。存储的物理资源不一定在本地存放,可以通过网络与其他节点相连。HDFS的块大小默认为64字节。如果数据没有达到块大小则不占用实际磁盘空间。HDFS分为namenode和datanode两种节点。nam...

2018-08-03 13:08:46 96

原创 Hadoop单机伪分布式搭建

1:首先去下载Hadoop安装包2:安装hadoop          tar -zxvf hadoop-2.7.5.tar.gz -C /opt3:配置/etc/hosts        vim /etc/hosts注:要保证IP在同一个网段4:配置hadoop       cd /opt/hadoop-2.7.5/etc/hadoop      vim ha...

2018-08-03 10:00:11 149

原创 深入了解Java虚拟机之垃圾收集器和内存分配策略

垃圾收集器在回收前要先判断哪些对象已“死去”。而判断是否死去有引用计数法和可达性分析法。          1.引用计数法                  给对象添加一个引用计数器,每引用一次计数器加一,引用失效一个就减一。当计数器为零时表明对象不能再被使用。优点:实现简单,判定效率高。缺点:很难解决循环引用的问题。循环引用如下:                        cla

2017-10-30 15:55:21 133

原创 HotSpot虚拟机在堆中对对象分配、布局和访问的全过程

虚拟机遇到一条new指令时,首先检查这个指令能否在常量池中定位到一个类 的符号引用,并检查这个符号引用代表类是否已被加载解析和初始化过。如果没有则必须先执行相应的类加载过程。类加载通过后虚拟机将为这新对象分配内存。对象所需内存大小在类加载完成后已完全确定。内存分配有“指针碰撞”和“空间列表”两种方法。若Java堆中内存是绝对规整的(用过的内存在一边,没用过的内存在另一边,中间用指针作为分界点的指示

2017-10-29 16:37:22 426

原创 深入理解Java虚拟机随笔之运行时数据区

Java虚拟机运行时数据区分为程序计数器、虚拟机栈、本地方法栈、堆和方法区(前三个线程私有,后两个线程共享 )。            1.程序计数器               程序计数器是一块较小的内存空间。可看做当前程序所执行的字节码的行号指示器。在虚拟机的概念模型(注意只是概念模型,因为虚拟机可能通过一些更高效的方式去实现)中,字节码解释器通过程序计数器来选取下一条需要执行的字

2017-10-29 14:33:51 191

读写数据库数据的mr程序

以落地方式从mysql数据库读取数据到HBASE中的mapreduce程序

2018-08-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除