自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (2)
  • 收藏
  • 关注

原创 Kafka自定义分区Scala代码

Kafka自定义分区Scala版生产者增加参数properties.setProperty("partitioner.class", "com.tjf.kafka.KafkaPartitioners")//文件地址代码 KafkaPartitoners (代码改自这里)package com.tjf.kafkaimport java.utilimport java.util.concurrent.ThreadLocalRandomimport org.apache.kafka.clie

2021-02-23 10:48:18 267

原创 spark笔记

spark笔记spark DATAFRAME 进行类型转换时需要 使用 .cast()方法$"year".cast(IntegerType) as "years"数据需要进行列转行时使用 LATERAL VIEW explode 方法,可以内嵌map方法df .select($"burk", $"year", explode(columnMap) as Array("month", "pic")) //列转行select burk,year,month,pic from b

2021-02-23 10:33:07 281

原创 数据采集工具Sqoop、Datax、Flume、Canal

离线采集工具Sqoop1. 环境配置解压安装包i配置环境变量(记得source)添加MySQL驱动包到sqoop文件夹下的libcp mysql-connector-java-5.1.10.jar /sqoop-install-path/lib重命名文件并配置文件mv sqoop-env-template.sh sqoop-env.sh#添加环境变量export HADOOP_COMMON_HOME=/usr/local/soft/hadoop-2.6.0expor

2020-11-15 21:34:49 2961

原创 Hbase学习笔记、原理、shell、API

一、什么是hbasehbase 全称Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库hbase利用hadoop hdfs作为其文件存储系统,利用hadoop MapReduce来处理hbase中的海量数据、利用zookeeper作为其分布式协同服务主要用来存储非结构化数据(视频语音等二进制文件)和半结构化数据(json)的松散数据(列式存储 NoSQL数据库)二、hbase的原理2.1数据存储模式先介绍一下各个节点及其任务:c

2020-11-15 11:08:31 288

原创 kafka搭建

搭建环境上传解压缩包到任意节点解压,配置环境变量vim /etc/profileKAFKA_HOME=`文件位置`# 分发到所有节点scp /etc/profile node1:/etc/#(node2同理)source /etc/profile#(全部输入)修改kafka文件夹下的config/server.propertiesbroker.id=0 #(三个节点的值不能一样)zookeeper.connect=master:2181,node1:2181,node2:21

2020-11-09 23:36:52 82

原创 Spark配置JDBC

如果前面文章spark整合hive没有问题,首先启动hive元数据服务nohup hive --service metastore >> metastore.log 2>&1 &开启spark JDBC服务cd /usr/local/soft/spark-2.4.5-bin-hadoop2.6/sbin/./start-thriftserver.sh --master yarn-client在命令行中访问cd /usr/local/soft/sp.

2020-11-09 15:28:13 490

原创 Spark整合hive

整合hive和spark让spark能够操作hive中的表和数据在hive的hive-site.xml修改一行配置,增加了这一行配置之后,以后在使用hive之前都需要先启动元数据服务<property><name>hive.metastore.uris</name><value>thrift://master:9083</value></property>将hive-site.xml 复制到spark conf目录下.

2020-11-05 23:52:31 209

原创 Spark-Core Spark核心部分

spark核心部分总结spark-corespark简介分布式计算引擎(大数据计算框架),用来替代MapReduce速度是MapReduce的一百倍(官方),实际检测大概十倍左右spark会尽量将数据放在内存中进行计算(cache)使用DAG有向无环图 spark可以将多个MapReduce串联在一起粗粒度资源调度,spark在任务执行之前会将所需要的所有资源全部申请下来spark生态体系spark-sql 将sql转换成RDD进行计算MLlib .

2020-11-04 22:59:06 256

原创 Spark-2.4.5搭建 集群 单机模式

集群版第一步:上传文件,解压到指定文件夹,这里存放于以下文件夹/usr/local/soft/在spark目录下的conf文件中找到配置文件并修改增加如下配置:export SPARK_MASTER_IP=masterexport SPARK_MASTER_PORT=7077export SPARK_WORKER_CORES=2export SPARK_WORKER_INSTANCES=1export SPARK_WORKER_MEMORY=2gexport JAVA_HOME=/

2020-11-01 11:16:03 375

原创 Scala基础、类、读写文件操作、样例类

建议有一定java基础同学学习Scala简单语法Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言变量val:常量,不可变(不能在指向其他的对象) 相当于java中的finalvar:变量基本数据类型和java相差不大scala中类型转换可以直接使用to…方法object Demo3base { def main(args: Array[String]): Unit = { val i: Int = 10 var j = 100 /.

2020-10-26 23:05:54 240

原创 Hbase环境搭建(集群版)

一、前提在搭建hbase之前请配置好hadoop和zookeeper,先启动hadoop和zkstart-all.sh# 在三台虚拟机上启动zkzkServer.sh start开启后如下二、正式搭建2.1上传解压配置环境变量tar -xvf hbase-1.4.6-bin.tar.gz2.2修改hbase-env.sh文件增加java配置export JAVA_HOME=/usr/local/soft/jdk1.8.0_171关闭默认zk配置export HBASE

2020-10-25 15:13:16 166

原创 hbase能够使用SQL的API神器--Phoenix

Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的PAI执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。1、Phoenix搭建Phoenix 4.15 HB.

2020-10-25 11:20:01 643

原创 暑期进步计划2:爬取某眼电影Top100电影详细信息,并将结果存入数据库

爬取某眼top100电影信息,存入数据库编号图片姓名主演时间评分

2019-08-17 13:48:54 316

原创 暑期进步计划1:爬取百度贴吧照片(链接自己寻找),将结果存入数据库

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入爬取百度图片...

2019-08-07 22:24:58 126

hbase-1.4.6-bin.tar.gz

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。这是Linux搭建hbase的所需的环境资源。配合博主的hbase环境搭建更棒哦

2020-10-25

Phoenix 4.15 版本

使得hbase中的列式数据库编程我们熟悉的类SQL数据库类型的神器接口。Linux 4.15版本,可配合相关的hbase 1.4版本使用,java api建议在maven库使用phoenix core 4.15-hbase-1.4。

2020-10-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除