灥灥-CSDN博客

原创 kafka初体验（二）

kafka的数据单元称为消息，消息是由字节数组组成。键：字节数组，决定消息写入哪个分区消息分批次传输可以减少网络开销。批次越大单位时间内处理的消息越多，单个消息的传输时间越长。将批次数据压缩可以提升数据的传输和存储能力，但要做更多的计算处理。kafka消息按主题进行分类。每个主题分为若干个分区。消息以追加的形式写入分区。以先入先出的顺序读取。（由于一个主题有多个分区，所以无法保证主...

2019-11-16 11:23:17 140

原创 kafka初体验（一）

开启自带的zookeepernohup bin/zookeeper-server-start.sh config/zookeeper.properties > zookeeper-run.log 2>&1 &启动kafkanohup bin/kafka-server-start.sh config/server.properties > kafka-r...

2019-11-15 22:47:03 259

原创 hive orderby distribute by sortby 和cluster by区别

1.创建一个学生表create table student(sno int,sname string,sex string,sage int,sdept string)row format delimited fields terminated by ','stored as textfile;2.从hdfs导入数据到表中load data inpath '/hivedata/stud...

2019-10-30 11:51:28 206

原创 spark 机器学习包实现KMeans

KMeans将数据分为K类。第一次随机选择k个点做质心。求每个数据与每个质心（迪卡尔积）的欧式距离，并选择最短距离。如此将数据分为k类。每类数据取平均值将结果作为质心重新计算欧式距离。直到质心基本不变（误差平方和最小）为止。public class KMean { public static void main(String[] args) { if(args.leng...

2018-09-29 15:28:46 261

原创 spark统计共同好友

数据格式 <user1>,<frend1>,<frend2>.....<frendn>eg: aa,bb,cc,dd,ee bb,aa,dd,ee cc,aa dd,aa,bb ee,aa,bb通过flatmaptopair将数据变成以<user1frenfi,frend1 fre...

2018-09-29 15:15:21 366

原创 Hadoop学习之HDFS

Hadoop框架的两大核心部件是HDFS和MapReduce。HDFS是 Hadoop Distributed File System的缩写，是Java实现的、分布式的、可横向扩展的文件系统。存储的物理资源不一定在本地存放，可以通过网络与其他节点相连。HDFS的块大小默认为64字节。如果数据没有达到块大小则不占用实际磁盘空间。HDFS分为namenode和datanode两种节点。nam...

2018-08-03 13:08:46 96

原创 Hadoop单机伪分布式搭建

1：首先去下载Hadoop安装包2：安装hadoop tar -zxvf hadoop-2.7.5.tar.gz -C /opt3:配置/etc/hosts vim /etc/hosts注：要保证IP在同一个网段4:配置hadoop cd /opt/hadoop-2.7.5/etc/hadoop vim ha...

2018-08-03 10:00:11 149

原创深入了解Java虚拟机之垃圾收集器和内存分配策略

垃圾收集器在回收前要先判断哪些对象已“死去”。而判断是否死去有引用计数法和可达性分析法。 1.引用计数法给对象添加一个引用计数器，每引用一次计数器加一，引用失效一个就减一。当计数器为零时表明对象不能再被使用。优点：实现简单，判定效率高。缺点：很难解决循环引用的问题。循环引用如下： cla

2017-10-30 15:55:21 133

原创 HotSpot虚拟机在堆中对对象分配、布局和访问的全过程

虚拟机遇到一条new指令时，首先检查这个指令能否在常量池中定位到一个类的符号引用，并检查这个符号引用代表类是否已被加载解析和初始化过。如果没有则必须先执行相应的类加载过程。类加载通过后虚拟机将为这新对象分配内存。对象所需内存大小在类加载完成后已完全确定。内存分配有“指针碰撞”和“空间列表”两种方法。若Java堆中内存是绝对规整的（用过的内存在一边，没用过的内存在另一边，中间用指针作为分界点的指示

2017-10-29 16:37:22 426

原创深入理解Java虚拟机随笔之运行时数据区

Java虚拟机运行时数据区分为程序计数器、虚拟机栈、本地方法栈、堆和方法区（前三个线程私有，后两个线程共享）。 1.程序计数器程序计数器是一块较小的内存空间。可看做当前程序所执行的字节码的行号指示器。在虚拟机的概念模型（注意只是概念模型，因为虚拟机可能通过一些更高效的方式去实现）中，字节码解释器通过程序计数器来选取下一条需要执行的字

2017-10-29 14:33:51 191

灥灥的搬砖旅程