Anssin_索隆三刀流-CSDN博客

原创项目总结一 (概要设计与流量域)

我们公司使用的项目是一个大数据运营系统,主要类型是一些电商平台的运营系统,我主要是负责项目架构的总体设计和技术调研, 数据处理分析代码开发,需求沟通,集群搭建,平台集群监控以及数据平台的相关调优等我在公司主要做etl开发,dwd层到dws层开发业务的,我在里面主要是做数据平台开发,项目的整体大概是这样的1.1日志采集和业务数据抽取项目在pc端和app端进行埋点采集日志,埋点数据按主题生产到kafka 的topic里面,项目当时日志采集用的是flume消费kafka(kafka的ac...

2020-08-17 11:02:32 608

原创 SPARK 笔记 (五) 经纬度转换地址

经纬度转换地址anssin用的是高德地图,实现逆地理位置,首先需要去高德地图开放平台(https://lbs.amap.com/)获取key我的key就不分享给大家了逆地理位置用的是http请求在maven项目里面导入http请求工具包的依赖就可以<dependency> <groupId>org.apache.httpcomponents</groupId> <ar.

2020-07-14 20:30:23 649

原创 phoenix 安装以及开启后报错

1 phoenix 安装下载地址:http://phoenix.apache.org/download.html 2 上传解压 rz 上传安装包 [root@linux01 apps]# rzrz waiting to receive.Starting zmodem transfer. Press Ctrl+C to cancel.Transferring apache-phoenix-5.0.0-HBase-2....

2020-06-14 16:19:40 4242 1

原创 HDFS 知识点总结

HDFS 知识点总结一什么是HDFS ？HDFS 是一个分布式存储系统,用来存储海量数据的一个存储系统.使用场景1 ) 存储海量数据文件2 ) 使用于一次存储多次读取3 ) 不适用于存储大量的小文件4 ) 不适用于数的随机修改5 ) 每个文件都会记录元数据二 HDFS 特点1 ) 高容错性 ,安全性2 ) 可扩展性3 ) 默认存储数据切块大小128M , 默认副本是3 个4 ) 数据支持随机读取5 ) 存储在HDFS 上的数据不允许随机写,并发写,追加,覆盖

2020-06-08 08:52:43 331 1

原创 SPARK 笔记 (八) sparkstreaming与kafka整合 (一)

sparkstreaming与kafka整合(一)anssin用的是spark3.0.0 ,与kafka整合会和以前版本有些出入首先我们导入sparkstreaming的依赖,scala版本是2.12的<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <versio

2020-07-23 15:12:22 210

原创 SQARK 笔记(七) Task多线程

Task序列化问题问题原因一个Executor是一个进程，一个进程中可以同时运行多个Task，如果多个Task使用了共享的变量，就会出现线程不安全的问题案例需求使用spark将日期字符串转换成long类型时间戳样例数据2019-11-06 15:59:502019-11-06 15:59:512019-11-06 15:59:522019-11-06 15:59:532019-11-06 15:59:542019-11-06 15:59:55201..

2020-07-16 21:19:10 230

原创 SAPRK 笔记（六）根据ip规则求归属地和广播变量

根据ip规则求归属地现有日志数据根据日志数据解析用户归属地 , 这是一条日志中第二个是ip,现在我们可以根据ip求用户的归属地20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=shoplist2.php&style=1&sex=137|Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Mozilla/4.0(Compat..

2020-07-15 21:10:18 222 1

原创 SPARK 笔记 (四) 自定义排序

1

2020-07-13 22:32:33 1017

原创 SPARK 笔记 (三) 分组TopN排序案例

数据张这样http://bigdata.cn/laozhanghttp://bigdata.cn/laozhanghttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laozhaohttp://bigdata.cn/laoduanhttp://bigdata.cn/laoduanhttp://javaee

2020-07-12 19:46:24 324

原创 SPARK wordCount案例以及订单成交金额案例

一 wordCount案例需求 : 统计文件中的单词个数按升序排列数据准备hadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive java scalahadoop spark hbase hive j...

2020-07-10 19:43:34 226

原创 RDD SparkSubmit分区个数详解源码解读

RDD分区个数 1在创建RDD时可以指定分区数量 sc.textFile("hdfs:linux01:9000/data",5) 这里的5就是指定的分区数量2在启动Spark-shell时指定cores ,也是分区数量/opt/apps/spark-3.0.0/bin/spark-shell --master spark://linux02:7077 --executor-memory 1g --total-executor-cores 6如果在创建RDD时没有指定分区数...

2020-07-07 23:34:20 268

原创 SPARK笔记 (二) RDD的使用

1

2020-07-07 21:33:03 492

原创 SPARK笔记 (一) 简介安装部署和spark编程入门

一 spark简介 1.1版本 spark版本：spark-3.0.0 hadoop版本：hadoop-2.8.5 hbase版本：hbase-2.0.4 kafka版本：kafka_2.12-2.4.1 java版本：1.8 scala版本：2.121.2什么是SparkSpark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，...

2020-07-06 20:14:18 288

原创 HBASE 相关问题理解

1 阐述Hbase写数据流程前提是主节点maser正常开启1 首先客户端发送写数据, 请求zk写,zk找寻meta元数据位置,2返回给客户端meta位置3客户端拿到meta解析put数据rk在哪个region上,请求regionserver获取元素表4 下载到客户端本地,方便下次直接拿取5 客户端请求rs写入 put 'a' , 'rk001' ....6 在rs 中写入, 操作写入日志文件, 数据写入store,写进本地memstore ,然后1 单个文件达...

2020-06-15 21:18:29 186

m0_46570085的博客