![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
STAR・Wang
这个作者很懒,什么都没留下…
展开
-
JavaAPI创建kafka topic 删除及修改分区
记录最近遇到一个需求中踩到的不少坑,现在整理一下做个汇总使用JavaAPI写一个Kafka topic创建及修改目前发现有两种方法:一种通过注册zookeeper来管理kafka,这是一种很老的方法,这里不做过多赘述另一种是adminclient说明:在Kafka0.11.0.0版本之后,多了一个AdminClient,这个是在kafka-client包下的,这是一个抽象类,具体的实现是org.apache.kafka.clients.admin.KafkaAdminClient。这个类可以实现相原创 2021-11-12 11:30:51 · 2689 阅读 · 0 评论 -
spark dataframe正则表达式
关于如何在spark中对Dataframe使用正则表达式进行筛选,最近在使用过程中进行了小研究。1、遇到的问题一准备一个DataFrame,首先的思路是使用withColumn对dataFrame中的目标列进行修改://dataframe 结构如下+-----+-------+----+|index| name|type|+-----+-------+----+| 1|Michael| A|| 2| Andy| B|| 3| Justin| C|+-原创 2021-12-29 17:25:19 · 1787 阅读 · 0 评论 -
Scala处理复杂json
Scala 处理复杂 json示例 JSON 如下{ "nodeName": "xxx", "source": "join", "left_child": { "nodeName": "yyy", "join": null, "source": "hive", "parameter": { "address": "", "port": 9083,原创 2021-12-21 20:06:10 · 400 阅读 · 0 评论 -
null/hadoopbinary/wintils.exe 报错
遇见 null/hadoopbinary/wintils.exe 报错是因为windows缺少hadoopCommon包,需要下载并解压hadoop-common-2.2.0-bin-master包并在环境变量中设置环境变量,1、在用户变量中新建HADOOP_HOME变量名,变量值为common包的位置2、在系统变量Path中,添加%HADOOP_HOME%\bin;点击确定保存,并重启电脑即可...原创 2021-09-17 15:50:19 · 132 阅读 · 0 评论 -
使用java代码连接HDFS
前提是输入localhost:50070可以正常进入网页 Configuration conf=new Configuration(); try { FileSystem fs= FileSystem.get(new URI("hdfs://192.168.175.100:9000"),conf,"root");//创建文件夹 fs.mkdirs(new Path("/testHDFS/java/hello"));//上传文件 .原创 2021-03-29 08:23:48 · 768 阅读 · 0 评论 -
Kafka Stream 实时流例程
Kafka Stream提供了对存储于Kafka内的数据进行流式处理和分析的功能。使用kafkaStream将kafka输入一个topic的数据,以实时流的方式写入到另一个topic中间可以对数据进行“加工”,对截取到的数据累加后在放到另一个topic中首先新建两个kafka topic 一个用来作为第一接受数据topic,另一个用来接收转发数据topicmystreamin为接收数据topickafka-topics.sh --zookeeper 192.168.150.100:218.原创 2021-05-27 15:06:12 · 210 阅读 · 0 评论 -
一图搞定MapReduce流程
原创 2021-05-25 19:07:09 · 166 阅读 · 0 评论 -
使用自定义程序过滤flume数据
编写java自定义过滤程序新建一个maven项目在pom.xml中添加<dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <version>1.6.0</version> </dependency>新建java程序package flu原创 2021-05-25 18:58:12 · 349 阅读 · 0 评论 -
flume 实时监控读写操作例程
Flume最主要的作用就是,实时监控读取服务器本地磁盘的数据,将数据写入到HDFS、kafka。输入vi flume-env.sh进入修改配置java路径export JAVA_HOME=/root/software/jdk1.8.0_221配置flume的运行内存(建议10G)export JAVA_OPTS="-Xms10240m -Xmx10240m -Dcom.sun.management.jmxremote"配小了在运行大量运算时容易报channel不足错误在conf文件夹下.原创 2021-05-25 17:17:23 · 302 阅读 · 0 评论 -
kafka快速安装配置
到安装包所在的目录,输入tar -zxvf 包名进行解压输入mv 包名 kafka对解压包进行改名配置环境变量,输入vi /etc/profile并在最后添加路径export KAFKA_HOME=/root/software/kafkaexport PATH=$PATH:$KAFKA_HOME/bin在文件夹根目录创建一个文件夹,用来放日志和数据文件mkdir /root/software/kafka/logs打开kafka目录进入config输入vi server.properties原创 2021-05-20 17:42:23 · 117 阅读 · 0 评论 -
Hadoop高可用集群快速搭建
HDFS——HA集群配置在之前的教程中安装好hadoop、zookeeper1、在core-site.xml中添加以下的配置<configuration><!-- 把两个NameNode)的地址组装成一个集群mycluster --><property> <name>fs.defaultFS</name> <value>hdfs://集群名</value></property><!-- 指原创 2021-05-18 17:10:00 · 99 阅读 · 0 评论 -
Spark自定义函数UDF UDAF UDTF编写
一、Spark自定义函数UDFimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.{SparkConf, SparkContext}object UDFDemo {//创建样例类 case class Hobbies(name: String, hobbies: String) def main(args: Array[String]): Unit = {//建立连接 val conf =原创 2021-05-12 19:19:26 · 229 阅读 · 0 评论 -
如何使用Spark连接MySQL数据库
import org.apache.spark.sql.SparkSessionobject SparkToMysql { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("toSQL") .master("local[*]") .config("hive.metastore.uris", "thrift://192.168.150.100:9083原创 2021-05-12 18:56:36 · 2535 阅读 · 0 评论 -
hive快速安装
使用ssh将安装包放进/root/software目录输入cd software进入压缩包所在的目录输入tar -zxvf 包名解压压缩包输入mv 原安装文件夹名 hive改名(好记)输入cd /hive/conf准备修改配置输入vi hive-site.xml创建配置文件按a进入编辑模式<configuration> <property> <name>hive.metastore.warehouse.dir&原创 2021-04-01 19:21:49 · 123 阅读 · 0 评论 -
OVER(PARTITION BY... ORDER BY...)的使用说明和意义
OVER(PARTITION BY... ORDER BY...)的使用说明和意义 这个函数长这个样子:OVER(PARTITION BY... ORDER BY...)顾名思义,PARTITION 中文是分割的意思,ORDER 是排序的意思,所以翻译一下就是先把一组数据按照制定的字段进行分割成各种组,然后组内按照某个字段排序。以实际案例来说明这个函数的使用,首先,我们先看一组普通排...转载 2021-04-01 16:11:44 · 2124 阅读 · 0 评论 -
范式(数据库的设计范式)
范式:符合某一级别的关系模式的集合,构造数据库必须遵循一定的规则.在关系数据库中,这种规则就是范式.关系数据库必须满足一定的要求,即满足不同的范式. 目前关系数据库有六种范式:第一范式(1NF) 第二范式(2NF) 第三范式(3NF) Boyce -Codd范式(BCNF) 第四范式(4NF) 第五范式(5NF) . 满足最低要求的范式是第一范式(1NF)。在第一范式的基础上进一步满足更多要求的称为第二范式(2NF),其余范式以次类推。一般说来,数据库只需满足第三范式(3NF)就行了。 第一范式(1NF)转载 2021-03-26 08:46:33 · 140 阅读 · 0 评论 -
Hadoop安装教程
文章目录前言一、hadoop是什么?二、安装前准备1.安装包2.配置环境变量总结前言一、hadoop是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、安装前准备1.安装包首先下载hadoop 安装包,代码如下(示例):使用tar -zxvf命令来解压tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz解压后的文件夹hadoop-2.6.0-cdh5.14.2由于名字太长不方便记忆,所以把文件夹改名字为.原创 2021-03-18 19:20:53 · 170 阅读 · 0 评论