自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李sir的博客

大数据相关技术

  • 博客(14)
  • 收藏
  • 关注

原创 JAVA获取API接口的数据并写入JSON对象中

【代码】JAVA获取API接口的数据并写入JSON对象中。

2023-07-13 16:50:12 276 1

原创 Filebeat和Nxlog采集IIS日志到Logstash

配置Logstash:在Logstash中,我们需要配置一个input插件来接收Filebeat发送的数据,并通过filter插件来解析和处理IIS日志。配置Filebeat:在Filebeat的配置文件中,我们需要指定要收集的IIS日志文件的位置和格式,并将日志数据发送到Logstash的主机和端口。在Logstash的配置文件中添加一个TCP输入插件,以便接收Nxlog发送的IIS日志。启动Nxlog服务。在上述示例中,我们指定了IIS日志文件的路径,以及将日志数据发送到Logstash的主机和端口。

2023-06-05 15:11:51 740

原创 Java连接MySQL数据库

Java连接MySQL数据库

2023-06-02 16:56:10 2676

原创 大数据面试题

1.离线数据1. hdfs存/取文件过程2. yarn提交任务流程3. spark和Mr的shuffle4. spark提交任务的三种运行过程5. spark的调优6. oom的调优7. hive架构,hive开窗函数,窗口函数8. udf, udaf, udpf区别和使用9. hive扩容,子查询10. Hbase架构,存取流程11. Hbase二级索引12. Hbase...

2019-08-22 23:06:29 638

原创 Linux常用命令

Linux常用命令$代表普通用户,#代表root用户1.man命令(manual操作系统的简称) : 可以通过man命令查看某一个命令的使用方法 栗子: man su 查看su命令的使用方法2.useradd : 添加用户命令 用法: useradd[选项] 用户名栗子 : useradd Li -g<群组> 指定用户的所述群组 -G<群组&g...

2019-06-05 19:15:58 235

原创 GitHub

GitGit简介Git是目前世界上最先进的分布式版本控制系统Git命令操作git log : 查看git提交日志git reset --hard HEAD^ :回退到上一个版本,HEAD^^ 上两个版本git reset --hard 版本号git reflog : 记录每一次命令,去到未来git add . :把修改后的文件加入暂存区git commit -m '' ...

2019-06-04 20:40:48 219

原创 Kafka

Kafka是一个分布式,支持分区的(partition),多副本的(replica),基于zookeeper协调的分布式消息系统是一个分布式消息队列,生产者,消费者的功能对消息保存时根据Topic进行分类,发送消息的为Producer,消息接受者为consummer,依赖于zookeeperbroker:每个kafka实例topic:partition:zookeeper:依赖集群保...

2019-06-02 21:34:07 227

原创 HBase

HBase架构:关键词: client,zookeeper,hmaster,hregoinserver,hlog,hregoin,store,memstore,storefile,hfilehmaster:(hbase的老大) 为regoinserver分配region 负责region的重新分配 hdfs的垃圾文件回收hregoinserver:(hbase的小弟)负责维护...

2019-06-02 20:29:58 183

原创 快速排序

快速排序在每一轮挑选一个基准元素,并让其他比它大的元素移动到数列一边,比它小的元素移动到数列的另一边,从而把数列拆解成了两个部分。这种思路就叫做分治法。元素的移动选定了基准元素以后,我们要做的就是把其他元素当中小于基准元素的都移动到基准元素一边,大于基准元素的都移动到基准元素另一边。挖坑法:import java.util.Arrays;public class QuickSort ...

2019-06-01 09:47:28 108

原创 Spark

1.spark安装 (1)上传,解压 (2)进入conf目录并重命名并修改spark-env.sh.template文件 cd conf/ mv spark-env.sh.template spark-env.sh vi spark-env.sh 在该配置文件中添加如下配置 export JAVA_HOME=/usr/local/jdk1.8.0_152 export SPAR...

2019-06-01 08:59:07 394

原创 Mysql存储引擎与索引

Mysql存储引擎:Mysql有两种存储引擎:MyISAM和InnoDBMyISAM:MyISAM 引擎是 MySQL 5.1 及之前版本的默认引擎,它的特点是: (1)不支持行锁,读取时对需要读到的所有表加锁,写入时则对表加排它锁 (2)不支持事务 (3)不支持外键 (4)不支持崩溃后的安全恢复 (5)在表有读取查询的同时,支持往表中插入新纪录 (6)支持 BLOB 和 T...

2019-05-30 20:39:58 270

原创 冒泡排序

冒泡排序 冒泡排序又叫做交换排序,两两比较,根据自身的大小一点一点往一侧移动思想: 相邻的元素两两比较,根据大小来交换元素的位置,每冒泡一遍,有序数列+1原始的冒泡排序是稳定排序。由于该排序算法的每一轮要遍历所有元素,轮转的次数和元素数量相当,所以时间复杂度是O(N^2) 。冒泡排序第一版:public class BubbleSort{ private sta...

2019-05-29 20:02:06 261

原创 数据仓库

数据仓库部分前言(hive优化,hive数据倾斜的原因及优化,hive内置函数的使用,hive开窗函数,hive基本练习题,sqoop导入hive,hbase,mysql,及分段导入,全表导入,sql导入,导入原理,ETL概念,维度概念,建模概念, 雪花型和星型区别,数据仓库架构,hbase rowkey设计原则,hbase如何使用)hive优化1.表连接优化 (1)大表放在后...

2019-05-29 12:54:54 1120

原创 基础数据结构总结

数据结构复习前言数据结构(hashmap基本原理,currenthashmap基本原理,二叉树,平衡二叉树,红黑树,单例模式手写,工厂模式手写,快速排序手写,堆排序概念,jvm堆列栈概念,JVM垃圾回收概念(算法看自己想不先做,说出来加分),java集合全部概念,什么是链表,java实现链表相关,java多线程,线程锁概念,线程池概念,所有排序算法时间复杂度(要先懂什么是时间复杂度))...

2019-05-28 21:08:18 342

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除