- 博客(10)
- 资源 (1)
- 收藏
- 关注
原创 kafka初体验(二)
kafka的数据单元称为消息,消息是由字节数组组成。键:字节数组,决定消息写入哪个分区消息分批次传输可以减少网络开销。批次越大单位时间内处理的消息越多,单个消息的传输时间越长。将批次数据压缩可以提升数据的传输和存储能力,但要做更多的计算处理。kafka消息按主题进行分类。每个主题分为若干个分区。消息以追加的形式写入分区。以先入先出的顺序读取。(由于一个主题有多个分区,所以无法保证主...
2019-11-16 11:23:17
140
原创 kafka初体验 (一)
开启自带的zookeepernohup bin/zookeeper-server-start.sh config/zookeeper.properties > zookeeper-run.log 2>&1 &启动kafkanohup bin/kafka-server-start.sh config/server.properties > kafka-r...
2019-11-15 22:47:03
259
原创 hive orderby distribute by sortby 和cluster by区别
1.创建一个学生表create table student(sno int,sname string,sex string,sage int,sdept string)row format delimited fields terminated by ','stored as textfile;2.从hdfs导入数据到表中load data inpath '/hivedata/stud...
2019-10-30 11:51:28
206
原创 spark 机器学习包实现KMeans
KMeans将数据分为K类。第一次随机选择k个点做质心。求每个数据与每个质心(迪卡尔积)的欧式距离,并选择最短距离。如此将数据分为k类。每类数据取平均值将结果作为质心重新计算欧式距离。直到质心基本不变(误差平方和最小)为止。public class KMean { public static void main(String[] args) { if(args.leng...
2018-09-29 15:28:46
261
原创 spark统计共同好友
数据格式 <user1>,<frend1>,<frend2>.....<frendn>eg: aa,bb,cc,dd,ee bb,aa,dd,ee cc,aa dd,aa,bb ee,aa,bb通过flatmaptopair将数据变成以<user1frenfi,frend1 fre...
2018-09-29 15:15:21
366
原创 Hadoop学习之HDFS
Hadoop框架的两大核心部件是HDFS和MapReduce。HDFS是 Hadoop Distributed File System的缩写,是Java实现的、分布式的、可横向扩展的文件系统。存储的物理资源不一定在本地存放,可以通过网络与其他节点相连。HDFS的块大小默认为64字节。如果数据没有达到块大小则不占用实际磁盘空间。HDFS分为namenode和datanode两种节点。nam...
2018-08-03 13:08:46
96
原创 Hadoop单机伪分布式搭建
1:首先去下载Hadoop安装包2:安装hadoop tar -zxvf hadoop-2.7.5.tar.gz -C /opt3:配置/etc/hosts vim /etc/hosts注:要保证IP在同一个网段4:配置hadoop cd /opt/hadoop-2.7.5/etc/hadoop vim ha...
2018-08-03 10:00:11
149
原创 深入了解Java虚拟机之垃圾收集器和内存分配策略
垃圾收集器在回收前要先判断哪些对象已“死去”。而判断是否死去有引用计数法和可达性分析法。 1.引用计数法 给对象添加一个引用计数器,每引用一次计数器加一,引用失效一个就减一。当计数器为零时表明对象不能再被使用。优点:实现简单,判定效率高。缺点:很难解决循环引用的问题。循环引用如下: cla
2017-10-30 15:55:21
133
原创 HotSpot虚拟机在堆中对对象分配、布局和访问的全过程
虚拟机遇到一条new指令时,首先检查这个指令能否在常量池中定位到一个类 的符号引用,并检查这个符号引用代表类是否已被加载解析和初始化过。如果没有则必须先执行相应的类加载过程。类加载通过后虚拟机将为这新对象分配内存。对象所需内存大小在类加载完成后已完全确定。内存分配有“指针碰撞”和“空间列表”两种方法。若Java堆中内存是绝对规整的(用过的内存在一边,没用过的内存在另一边,中间用指针作为分界点的指示
2017-10-29 16:37:22
426
原创 深入理解Java虚拟机随笔之运行时数据区
Java虚拟机运行时数据区分为程序计数器、虚拟机栈、本地方法栈、堆和方法区(前三个线程私有,后两个线程共享 )。 1.程序计数器 程序计数器是一块较小的内存空间。可看做当前程序所执行的字节码的行号指示器。在虚拟机的概念模型(注意只是概念模型,因为虚拟机可能通过一些更高效的方式去实现)中,字节码解释器通过程序计数器来选取下一条需要执行的字
2017-10-29 14:33:51
191
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人