- 博客(14)
- 资源 (2)
- 收藏
- 关注
原创 Kafka自定义分区Scala代码
Kafka自定义分区Scala版生产者增加参数properties.setProperty("partitioner.class", "com.tjf.kafka.KafkaPartitioners")//文件地址代码 KafkaPartitoners (代码改自这里)package com.tjf.kafkaimport java.utilimport java.util.concurrent.ThreadLocalRandomimport org.apache.kafka.clie
2021-02-23 10:48:18 292
原创 spark笔记
spark笔记spark DATAFRAME 进行类型转换时需要 使用 .cast()方法$"year".cast(IntegerType) as "years"数据需要进行列转行时使用 LATERAL VIEW explode 方法,可以内嵌map方法df .select($"burk", $"year", explode(columnMap) as Array("month", "pic")) //列转行select burk,year,month,pic from b
2021-02-23 10:33:07 300
原创 数据采集工具Sqoop、Datax、Flume、Canal
离线采集工具Sqoop1. 环境配置解压安装包i配置环境变量(记得source)添加MySQL驱动包到sqoop文件夹下的libcp mysql-connector-java-5.1.10.jar /sqoop-install-path/lib重命名文件并配置文件mv sqoop-env-template.sh sqoop-env.sh#添加环境变量export HADOOP_COMMON_HOME=/usr/local/soft/hadoop-2.6.0expor
2020-11-15 21:34:49 2998
原创 Hbase学习笔记、原理、shell、API
一、什么是hbasehbase 全称Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库hbase利用hadoop hdfs作为其文件存储系统,利用hadoop MapReduce来处理hbase中的海量数据、利用zookeeper作为其分布式协同服务主要用来存储非结构化数据(视频语音等二进制文件)和半结构化数据(json)的松散数据(列式存储 NoSQL数据库)二、hbase的原理2.1数据存储模式先介绍一下各个节点及其任务:c
2020-11-15 11:08:31 319
原创 kafka搭建
搭建环境上传解压缩包到任意节点解压,配置环境变量vim /etc/profileKAFKA_HOME=`文件位置`# 分发到所有节点scp /etc/profile node1:/etc/#(node2同理)source /etc/profile#(全部输入)修改kafka文件夹下的config/server.propertiesbroker.id=0 #(三个节点的值不能一样)zookeeper.connect=master:2181,node1:2181,node2:21
2020-11-09 23:36:52 91
原创 Spark配置JDBC
如果前面文章spark整合hive没有问题,首先启动hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &开启spark JDBC服务cd /usr/local/soft/spark-2.4.5-bin-hadoop2.6/sbin/./start-thriftserver.sh --master yarn-client在命令行中访问cd /usr/local/soft/sp.
2020-11-09 15:28:13 517
原创 Spark整合hive
整合hive和spark让spark能够操作hive中的表和数据在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务<property><name>hive.metastore.uris</name><value>thrift://master:9083</value></property>将hive-site.xml 复制到spark conf目录下.
2020-11-05 23:52:31 225
原创 Spark-Core Spark核心部分
spark核心部分总结spark-corespark简介分布式计算引擎(大数据计算框架),用来替代MapReduce速度是MapReduce的一百倍(官方),实际检测大概十倍左右spark会尽量将数据放在内存中进行计算(cache)使用DAG有向无环图 spark可以将多个MapReduce串联在一起粗粒度资源调度,spark在任务执行之前会将所需要的所有资源全部申请下来spark生态体系spark-sql 将sql转换成RDD进行计算MLlib .
2020-11-04 22:59:06 296
原创 Spark-2.4.5搭建 集群 单机模式
集群版第一步:上传文件,解压到指定文件夹,这里存放于以下文件夹/usr/local/soft/在spark目录下的conf文件中找到配置文件并修改增加如下配置:export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=2gexport JAVA_HOME=/
2020-11-01 11:16:03 424
原创 Scala基础、类、读写文件操作、样例类
建议有一定java基础同学学习Scala简单语法Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言变量val:常量,不可变(不能在指向其他的对象) 相当于java中的finalvar:变量基本数据类型和java相差不大scala中类型转换可以直接使用to…方法object Demo3base { def main(args: Array[String]): Unit = { val i: Int = 10 var j = 100 /.
2020-10-26 23:05:54 250
原创 Hbase环境搭建(集群版)
一、前提在搭建hbase之前请配置好hadoop和zookeeper,先启动hadoop和zkstart-all.sh# 在三台虚拟机上启动zkzkServer.sh start开启后如下二、正式搭建2.1上传解压配置环境变量tar -xvf hbase-1.4.6-bin.tar.gz2.2修改hbase-env.sh文件增加java配置export JAVA_HOME=/usr/local/soft/jdk1.8.0_171关闭默认zk配置export HBASE
2020-10-25 15:13:16 197
原创 hbase能够使用SQL的API神器--Phoenix
Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的PAI执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。1、Phoenix搭建Phoenix 4.15 HB.
2020-10-25 11:20:01 676
原创 暑期进步计划1:爬取百度贴吧照片(链接自己寻找),将结果存入数据库
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入爬取百度图片...
2019-08-07 22:24:58 132
hbase-1.4.6-bin.tar.gz
2020-10-25
Phoenix 4.15 版本
2020-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人