一个向往阿里的小小白-CSDN博客

原创如何设计一个电商平台积分兑换系统

https://mp.weixin.qq.com/s?__biz=MzU0OTk3ODQ3Ng==&mid=2247486274&idx=1&sn=84129994bb694cddf422de46c991b00a&chksm=fba6e341ccd16a575ac3582e87b6b7887ffe73a2b64f79fe1861feb262fa99a5de94af7...

2019-09-17 13:31:41 494

原创记一次线上cpu和带宽占满的排查过程

一个应用占用CPU很高，除了确实是计算密集型应用之外，通常原因都是出现了死循环1,根据top命令，发现PID为28555的Java进程占用CPU高达200%，出现故障。2,通过ps aux | grep PID命令，可以进一步确定是tomcat进程出现了问题。但是，怎么定位到具体线程或者代码呢？首先显示线程列表:ps -mp pid -o THREAD,tid,time...

2019-08-28 17:29:16 1045

原创中华石杉的架构学习笔记

Unix与Java的IO模型1，同步和异步的概念：针对比如接口调用，服务调用，API类库调用等同步：用者必须要等待这个接口的磁盘读写或者网络通信的操作执行完毕了，调用者才能返回，这就是“同步”，如下图所示：异步：所谓的“异步”，就是说这个调用者调用接口之后，直接就返回了，他去干别的事儿了，也不管那个接口的磁盘读写或者是网络通信是否成功，然后这个接口后续如果干完了自己的任务，比如写完了文件或...

2019-04-18 11:01:26 8482

原创 hadoop高可用集群搭建（超详细）

一，搭建centos6.10集群1，软件准备centos6.10下载：https://mirrors.aliyun.com/centos/6/isos/x86_64/CentOS-6.10-x86_64-bin-DVD1.iso（阿里云镜像站）vm:自行百度2，准备Linux环境2.1，点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> ...

2019-04-12 16:40:32 741

原创 scala学习笔记

##第一课基础语法1，val声明量，var声明变量2，·基本数据类型：Byte、Char、Short、Int、Long、Float、Double、Boolean，没有java的封装类3，基本操作符：scala的算术操作符与java的算术操作符也没有什么区别，比如+、-、*、/、%等，以及&、|、^、>>、<<等。没有++，–等操作4，如果调用函数时，不需要...

2019-03-21 23:04:10 200

原创阿里巴巴Java开发手册学习笔记

阿里巴巴Java开发手册学习笔记一，编程规约1，命名不能以_和$开头2，命名英文，见名知意3，常量命名全部大写，单词间用下划线隔开，力求语义表达完整清楚，不要嫌名字长正例： MAX_STOCK_COUNT反例： MAX_COUNT4，类名使用 UpperCamelCase 风格5，方法名、参数名、成员变量、局部变量都统一使用 lowerCamelCase 风格，必须遵从驼峰形式6...

2019-03-21 22:27:17 714

1，使用高性能序列化类库1.1，原理在任何分布式系统中，序列化都是扮演着一个重要的角色的。如果使用的序列化技术，在执行序列化操作的时候很慢，或者是序列化后的数据还是很大，那么会让分布式应用程序的性能下降很多。所以，进行Spark性能优化的第一步，就是进行序列化的性能优化。 Spark自身默认就会在一些地方对数据进行序列化，比如Shuffle。还有就是，如果我们的算子函数使用到了外部的数据（比如...

2019-03-03 14:42:52 185

原创 java面试总结

1，java集合的框架结构https://www.cnblogs.com/paddix/p/5539326.html至于Vector，它是ArrayList的线程安全版本与之前提到的HashSet与TreeSet的区别是一致的，在后续进行源码分析的时候，我们可以看到HashSet和TreeSet本质上分别是通过HashMap和TreeMap来实现的，所以它们的区别自然也是相同的。Has...

2019-02-21 18:17:24 223

原创个人问题

1，spark的三种提交模式的区别

2019-01-21 15:10:50 169

原创实时数据采集流程

前面与离线的流程一样，只不过将flume的数据流到kafka中去了，然后通过sparkstreaming实时拉取数据，然后制定符合需求的任务

2019-01-21 14:47:32 1669

原创大型电商离线数据处理流程

电商网站，向后台发送请求，通过ngix转发给后台的tomcat服务器，服务器将接受到的请求打印成log，然后将日志定时发送到flume的指定目录里，通过flume的sink端连接hadoop的hdfs，将日志文件存储到hdfs上，然后将日志文件通过定时的MR和hive任务进行清洗和整合，然后将日志数据存储成新的hdfs文件或者是hive表，最后通过大数据平台对hive和hdfs中的文件进行符合业务...

2019-01-21 14:41:15 489 1

原创 kafka常用代码

1，消费者代码package com.iflytek.spark.test;import java.text.MessageFormat;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import com.iflytek.spark.bean.Sy

2017-11-23 17:55:57 658