bigdata
文章平均质量分 78
三石大数据
专注大数据面试分享!全网同名
展开
-
Flink在汽车行业的应用【面试加分系列】
一方面是自己学习完后觉得非常好,然后总结发出来方便大家阅读;另外一方面,看这些汇报对你的面试帮助会很大,特别是面试前可以看看即将面试公司在大数据前沿的发展动向(我曾经就有过一次经历,面试网易云音乐前,我在B站看了一个大佬分享的网易云实时数仓,刚好在面试的时候就碰见他了,最后反问就主动跟他说我看过他的汇报,然后还提出了自己的一些思考,面试官当场就给我通过了)原创 2023-11-11 11:57:43 · 829 阅读 · 0 评论 -
易混淆的栈,单向队列,双向队列的常用方法
java中使用栈和队列的一些常用方法原创 2022-01-29 11:05:16 · 325 阅读 · 0 评论 -
【大数据开发必看】shell脚本的常用语法
大数据开发也要掌握的一些shell脚本的基本写法原创 2022-01-28 10:38:10 · 1724 阅读 · 0 评论 -
【10天刷题计划】阿里巴巴常考面试算法题(一)
阿里巴巴常考的面试算法题,比如LRT缓存机制,无重复字符的最长子串,比较版本号等......原创 2022-01-09 22:42:11 · 976 阅读 · 1 评论 -
【大数据开发】安装Hue踩的坑
在编译的时候的第一个错误:执行以下命令就解决了:wget https://repo.mysql.com/yum/mysql-5.6-community/el/7/x86_64/mysql-community-devel-5.6.42-2.el7.x86_64.rpmrpm -ivh mysql-community-devel-5.6.42-2.el7.x86_64.rpm第二个错误是发生在第一次启动hue的时候执行以下命令就解决了:useradd hue;第三个错误是打开..原创 2021-06-20 22:08:01 · 309 阅读 · 2 评论 -
【大数据开发必看】ELK入门及实战
ELK 学习笔记很多人不知道ELK是什么,先说一下ELK指什么,E表示Elasticsearch,L表示Logstash,K表示Kibana在发展的过程中,又有了Beats的加入,这个时候就不再使用ELK去命名,而是Elastic Stack先简单介绍一下他们的作用分别是什么,这样我们才能知道为什么要学习这些技术Elasticsearch:分布式搜索引擎,还有存储数据Logstash:收集日志,分析和处理日志Kibana:提供web页面,展示数据分析的结果Beats:数据采集,它出现之原创 2021-05-27 15:56:38 · 1228 阅读 · 0 评论 -
【大数据开发必看】CDH版本的大数据集群搭建
CDH版本的大数据集群1. CDH和ClouderaManager简介1.1 CDH版本的集群和Apache版本对比apache版本:优点:开源,更新快缺点:部署过程复杂(组件版本的兼容性)这里有一个实际的例子可以列举,在学习HBase的时候,当时想要将数据读到Hive中,在这两个版本之间的兼容上十分麻烦;没有统一化管理界面;cdh版本:优点:统一化的可视化管理界面;部署过程简单缺点:CM的server和agent需要占用额外的内存和cpu1.2 CDH介绍CDH是原创 2021-05-19 14:59:14 · 542 阅读 · 1 评论 -
【含推荐算法源码实现】推荐系统入门
推荐系统1 推荐系统概述1.1 推荐系统的目的让用户更快更好的获取到自己需要的内容让内容更快更好的推送到喜欢它的用户手中让网站(平台)更有效的保留用户资源1.2 推荐系统的应用个性化音乐电子商务电影视频社交网络位置服务…1.3 推荐系统的基本思想利用用户和物品的特征信息,给用户推荐那些具有用户喜欢的特征的物品。利用用户喜欢过的物品,给用户推荐与他喜欢过的物品相似的物品。利用和用户相似的其他用户,给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品。1.4 推荐系统原创 2021-03-30 08:25:21 · 1821 阅读 · 0 评论 -
【大数据开发必看】项目一 电信客服
电信客服需求: 统计每天、每月以及每年的每个人的通话次数及时长项目架构:生产数据(ProduceLog)随机生成电话号(主被叫)随机生成通话建立时间随机生成通话时长(30min内)生成日志写入文件,2条/sflume(exec-kafka)Source:exec,监听生成数据Channel:MemoryChannelSink:KafkaSinkkafka(消息队列)控制台消费者测试IDEA消费者直接打印数据HBase(消费数据存储)HBaseUtil(原创 2021-03-23 09:01:41 · 991 阅读 · 0 评论 -
【大数据开发必看】Java IO流
此部分的代码演示全部在day12文件夹中第一章 Lambda表达式1.1 函数式编程思想概述面向对象的思想:做一件事,找一个能解决这个事情的对象,调用对象的方法,完成事情函数式编程思想:只要能获取到结果,怎么做的都不重要,重视的是结果,不重视过程简单的说,面向对象强调必须通过对象的形式来做事情;函数式思想强调做什么,而不是以什么形式做1.2 Lambda表达式格式由三部分组成:一些参数、一个箭头、一段代码格式:(参数列表) -> { 一些重写方法的代码 }1.2.1 练习.原创 2021-03-23 08:04:47 · 88 阅读 · 0 评论 -
【大数据开发必看】Java反射和注解
此部分的代码演示全部在day11文件夹中第一章 Junit单元测试1.1 测试分类黑盒测试:不需要写代码,给输入值,看程序是否能够输出期望的值。白盒测试:需要写代码的,关注程序具体的执行流程。1.2 Junit使用步骤:定义一个测试类(测试用例)建议:测试类名:被测试的类名+Test包名:xxx.xxx.xxx.test定义测试方法:可以独立运行建议:方法名:test+测试的方法名返回值:void参数列表:空参给方法加@Test导入Ju.原创 2021-03-23 08:03:34 · 104 阅读 · 0 评论 -
【大数据开发必看】Java异常
第一章 异常1.1 异常概念异常:指的是程序在执行过程中,出现的非正常的情况,最终会导致JVM的非正常停止在java等面向对象的编程语言中,异常本身就是一个类,产生异常就是创建异常对象并抛出一个异常对象,java处理异常的方式是中断处理异常指的并不是语法错误!!1.2 异常体系Throwable:异常的根类子类:Error类:不能处理Exception类:可以避免1.3 异常分类Exception:编译期异常,进行遍历(写代码)java程序出现的问题(必须处理原创 2021-03-23 08:02:46 · 68 阅读 · 0 评论 -
【大数据开发必看】Java集合和泛型
第一章 集合1.1 集合概述定义:集合是java提供的一种容器,用来存储多个数据。数组与集合的区别:数组的长度是固定的,集合长度是可变的数组中存储的是基本数据类型或者对象,集合存储的都是对象1.2 集合框架1.2.1 单列集合(Collection)定义:单列集合类的根接口。子接口:List子接口:特点:元素有序可重复实现类:ArrayListLinkedListVectorSet子接口:特点:元素无序不可重复实现类:TreeSetHas原创 2021-03-23 08:02:00 · 144 阅读 · 0 评论 -
【大数据开发必看】Java面向对象
第一章 面向对象基础1.1 概述面向过程与面向对象:面向过程:当需要实现一个功能的时候,每一个具体的步骤都要亲力亲为,详细处理每一个细节面向对象:当需要实现一个功能的时候,不关心具体的步骤,而是找一个已经具有该功能的人,来帮我做举例:面向过程就是手洗衣服;面向对象就是把衣服丢给洗衣机,这里的对象就是洗衣机。面向对象三大特征:封装、继承、多态类和对象:类是一组属性和行为的集合类是对象的模板,对象是类的实例。成员变量和成员方法:成员变量就是属性,成员方法就是行为原创 2021-03-23 08:01:09 · 108 阅读 · 0 评论 -
【大数据开发必看】Java语法基础
第一章 java语言概述JVM(Java Virtual Machine):在需要运行java应用程序的操作系统上,安装一个与操作系统对应的java虚拟机即可。JVM的作用是保证java语言可跨平台。JRE(Java Runtime Environment):是java程序的运行时环境,包含JVM和运行时所需要的核心类库。我们想要运行一个已有的java程序,那么只需要安装JRE即可。JDK(Java Development Kit):是java程序开发工具包,包含JRE和开发原创 2021-03-23 08:00:11 · 109 阅读 · 0 评论 -
【大数据开发必看】Hadoop重点
Hadoop重点内容1. 入门大数据主要解决的是存储和计算问题数据单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB…2006年,hadoop诞生Hadoop运行模式:本地模式,伪分布式模式,完全分布式模式当namenode和datanode一直起不起来(或者起来一会就挂掉):最可能的原因:格式化namenode的时候,没有删除data和log文件夹,这会导致namenode和datanode的clusterID不一致。格式化namenode:bin/hdfs nam原创 2021-03-19 19:47:17 · 110 阅读 · 0 评论 -
【大数据开发必看】可视化BI神器---FineBI
数据可视化分析平台FineBI1. 可视化的应用1.1 数据可视化可视化分析平台:不用写代码,直接对原始数据通过图形化操作实现分析和构建报表平台主要用于提供给业务人员快速上手实现数据分析构建可视化报表通过图的形式来展示对应的数据,实现信息的传递传递信息的方式文字:不太适合表达数据的信息结果图片:简单直观体现数据走势体现数据大小体现数据比例声音:不太适合数据的表达视频:太笨重,不太方便1.2 目的通过图片来展示数据的结果,从图中可以发现数据的规律原创 2021-03-19 08:55:43 · 3501 阅读 · 2 评论 -
【大数据开发必看】可视化ETL神器--Kettle
Kettle1. 数据仓库与ETL1.1 数据仓库本质:专门针对于数据存储模型实现:Mysql、Oracle、Hive应用:专门用于实现将各种各样的数据进行统一化规范化的数据存储,为所有数据应用提供数据数据分析数据挖掘用户画像推荐系统风控系统…特点:本身也不产生数据本身也不使用数据用于实现复杂数据的存储与数据库的区别:数据库:一般用于支撑业务数据的存储网站后台:用户数据、商品数据、订单数据数据仓库:专门为数据处理提供数据的业务数据用户行为爬虫原创 2021-03-16 15:43:27 · 1319 阅读 · 0 评论