数据分析
文章平均质量分 70
李昊哲小课
这个作者很懒,什么都没留下…
展开
-
Spark基础入门
sparkcore sparksql sparkstreaming structedstreming原创 2023-12-14 18:02:27 · 38469 阅读 · 0 评论 -
Java Date LocalDate LocalDateTime
Java中常用时间类型 Date LocalDate LocalDateTime 在工作中使用很频繁,但中间很多常用功能每次编写代码很繁琐,故而封装了以下三个工具类:DateUtil 日期工具类LocalDateUtil 新日期工具类LocalDateTimeUtil 新日期工具类用于日常使用。原创 2023-12-06 16:06:34 · 38697 阅读 · 0 评论 -
Scala 从入门到精通
大数据 spark scala 高阶函数 WordCount原创 2023-12-05 11:01:43 · 38455 阅读 · 2 评论 -
Windows安装MySQL8.2
安装MySQL8.2的时候多出两个样例数据库Sakila数据库和World数据库原创 2023-12-03 22:46:35 · 38284 阅读 · 0 评论 -
Sakila数据库和World数据库
安装MySQL8.2的时候多出两个样例数据库Sakila数据库和World数据库原创 2023-12-03 22:40:59 · 39286 阅读 · 0 评论 -
shell 脚本计算距离最近的坐标
shell 脚本计算距离最近的坐标原创 2023-12-02 13:00:06 · 38293 阅读 · 0 评论 -
shell 脚本批量处理文件后缀名
flumes收集日常完成后会对收集的文件添加`.COMPLETED`后缀名。我仍然使用原文件名,于是萌生了编写 shell 脚本批量删除文件后缀名的想法。效果很好,但整个脚本功能太多单一,如果想按需修改文件后缀名呢?于是编写了 shell 脚本批量修改文件后缀名。原创 2023-12-02 12:46:23 · 38326 阅读 · 0 评论 -
直播电商数据仓库
数据仓库,简称数仓,( Data Warehouse )。从逻辑上理解,数据库和数仓没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大。数仓主要是为企业制定决策,提供数据支持的。当业务简单,可以用数据库来存储,分析,制表。但当数据量几何式增长,需要跨机器整合时,数仓就是非常必要的了。原创 2023-12-01 15:14:34 · 38762 阅读 · 0 评论 -
finebi 新手入门案例
原始数据并没有毛利额,毛利额需要我们自己计算产生毛利额 = 销售额 - 成本额自定义图表由于纵轴指标聚合,毛利额和毛利率数值相差巨大故而毛利率显示并不明显解决方法:将纵轴指标聚合修改为指标并列设置值轴。原创 2023-11-30 21:20:00 · 38859 阅读 · 1 评论 -
hivesql 将json格式字符串转为数组
本案例为数仓分层设计1. 创建ods层原始数据表2. 创建dwd层维度数据表3. ETL转换ods层数据插入到dwd层原创 2023-11-27 02:00:22 · 38697 阅读 · 0 评论 -
ubuntu 安装 jetbrains-toolbox
sudo add-apt-repository universesudo apt -y install libfuse2原创 2023-11-26 14:34:54 · 38435 阅读 · 0 评论 -
openEuler Linux 部署 FineBi
其中tomcat.pid文件本身不存在,设置之后,启动Tomcat会自动生成。超级用户的密码已设置并存储在错误日志文件中。–add-port=3306/tcp #添加端口,格式为:端口/通讯协议。mysql-connector-j-8.0.33.jar mysql驱动。http://服务器IP地址:8080/finebi/decision。字符集应当为 utf8 ,排序规则为 utf8_bin。解压后的目录名为 tomcat-linux-64。删除MySQL5的驱动后上传MySQL8的驱动。原创 2023-11-26 11:00:38 · 38212 阅读 · 0 评论 -
一条命令彻底卸载Linux自带多个版本jdk
rpm -qa | grep java | xargs rpm -e --nodeps原创 2023-11-22 21:32:05 · 38399 阅读 · 0 评论 -
openEuler Linux 部署 FineReport
如MySQL版本为8+ 推荐将驱动修改为:com.mysql.cj.jdbc.Driver。其中tomcat.pid文件本身不存在,设置之后,启动Tomcat会自动生成。超级用户的密码已设置并存储在错误日志文件中。–add-port=1935/tcp #添加端口,格式为:端口/通讯协议。mysql-connector-j-8.0.33.jar mysql驱动。http://服务器IP地址:8080/webroot/decision。删除MySQL5的驱动后上传MySQL8的驱动。创建了一个超级用户帐户。原创 2023-06-04 15:46:19 · 78071 阅读 · 0 评论 -
Hive 定义变量 变量赋值 引用变量
hive --define slogan=勿忘国耻set hivevar:slogan=铭记历史;原创 2023-11-19 16:25:43 · 38498 阅读 · 0 评论 -
hive sql 行列转换 开窗函数 炸裂函数
讲师表 teacher.csv课程表 course.csv分数表 score.csv员工表 emp.csv雇员表 employee.csv电影表 movie.txt订单表 order.csv创建数据库和数据表行列转换列转行行专列原创 2023-11-19 10:08:43 · 38714 阅读 · 2 评论 -
hive sql多表练习
学生表 student.csv讲师表 teacher.csv课程表 course.csv分数表 score.csv。原创 2023-11-19 09:10:41 · 38412 阅读 · 0 评论 -
hive3从入门到精通
拷贝hadoop/share/hadoop/common/lib目录中的 guava-27.0-jre.jar 到 hive/lib 目录。不要使用图形化 不然每次保存后3215行都会有个 特殊字符 如果产生删除即可 具体报错信息 后面有单独的描述。删除原有的 protobuf-java-2.5.0.jar 文件。删除 hive/lib目录中的 guava-19.0.jar。json serde 加载数据。临时表 temporary。外部表 external。原创 2023-04-18 11:36:34 · 78091 阅读 · 0 评论 -
MapReduce 读写数据库
经常听到小伙伴吐槽 MapReduce 计算的结果无法直接写入数据库,实际上 MapReduce 是有操作数据库实现的本案例代码将实现 MapReduce 数据库读写操作和将数据表中数据复制到另外一张数据表中。原创 2023-11-09 22:00:39 · 38492 阅读 · 0 评论 -
MapReduce 排序三种实现方式
MapReduce 排序两种实现方式 都是借助重写 compareTo 方法 实现方式一:借助 MapReduce 按照 Key 排序特性,在WritableComparable实现类中 重写 compareTo 方法方式二:在 Reduce 阶段 cleanUp方法中将最终结果封装到实现JavaBean对象使用集合的排序方法方式三:在 Reduce 阶段 cleanUp方法中将最终结果封装到实现Comparable的实现类使用集合的排序方法。原创 2023-11-09 21:48:15 · 38774 阅读 · 0 评论 -
Hadoop 视频分析系统
vedio.json。原创 2023-11-09 14:16:04 · 38353 阅读 · 0 评论 -
CentOS 搭建 Hadoop3 高可用集群
在/etc/systemd/system/文件夹下创建一个启动脚本zookeeper-3.service。上传本地测试文件 wcdata.txt 到 HDFS 上 /wordcount/input。在 HDFS 上创建目录 /wordcount/input。浏览器访问:http://spark01:19888/浏览器访问: http://spark01:9870。浏览器访问:http://spark01:8088。将元数据内容按照指定格式读取后写入到新文件中。将元数据内容按照指定格式读取后写入到新文件中。原创 2023-11-01 23:46:51 · 38492 阅读 · 1 评论 -
Hadoop PseudoDistributed Mode 伪分布式
上传本地测试文件 wcdata.txt 到 HDFS 上 /wordcount/input。浏览器访问:http://hadoop102:50090/浏览器访问:http://hadoop102:19888/在 HDFS 上创建目录 /wordcount/input。浏览器访问: http://hadoop101:9870。浏览器访问:http://hadoop103:8088。重启系统 注意:如果是虚拟机环境请关机 克隆。找到命令头提示符 以管理身份运行。打开 hosts 配置文件。原创 2023-11-01 09:06:01 · 38532 阅读 · 0 评论 -
CentOS 安装 Hadoop Local (Standalone) Mode 单机模式
上传本地测试文件 wcdata.txt 到 HDFS 上 /wordcount/input。在 HDFS 上创建目录 /wordcount/input。浏览器访问:http://hadoop:50090/浏览器访问: http://hadoop:9870。 hadoop3.x中该文件名为workers。浏览器访问:http://hadoop:8088。 hadoop2.x中该文件名为slaves。hadoop-env.sh 文件末尾追加。解压 hadoop 修改名称。解压 JDK 修改名称。原创 2023-10-30 16:05:36 · 38570 阅读 · 0 评论 -
Sqoop 从入门到精通
Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。这样大的数据,由关系数据库生成的,存储在关系数据库结构关系数据库服务器。原创 2023-04-27 14:36:58 · 59400 阅读 · 0 评论 -
virtualbox 下载安装
安装Oracle VM VirtualBox 7.0.12 Python绑定,需要首先安装PythonCore包和win32api绑定。现在继续安装Oracle VM VirtualBox7.0.12 Python绑定时,需要在以后手动设置这些绑定。请参阅Oracle VM VirtualBox 7.0.12 SDK手动表单信息。选择 虚拟机软件 virtualbox 安装包 右键打开。如果使用默认安装路径直接点击下一步。如果想自定义安装路径点击浏览。原创 2023-10-20 12:47:44 · 39205 阅读 · 0 评论 -
Jackson 工具类
示例代码中包含 Date LocalDate LocalDateTime 类型处理方式JavaBean 与 json 相互转换 bean2json json2beanList 与 json 相互转换 list2json json2listMap 与 json 相互转换map2json json2map。原创 2023-10-19 20:08:05 · 38235 阅读 · 0 评论 -
Jackson 代码示例
示例代码中包含 Date LocalDate LocalDateTime 类型处理方式JavaBean 与 json 相互转换 bean2json json2beanList 与 json 相互转换 list2json json2listMap 与 json 相互转换map2json json2map。原创 2023-10-19 20:03:28 · 38444 阅读 · 0 评论 -
FastJson 代码示例
示例代码中包含 Date LocalDate LocalDateTime 类型处理方式JavaBean 与 json 相互转换 bean2json json2beanList 与 json 相互转换 list2json json2listMap 与 json 相互转换map2json json2map。原创 2023-10-19 19:53:32 · 38280 阅读 · 0 评论 -
Gson 代码示例
示例代码中包含 Date LocalDate LocalDateTime 类型处理方式JavaBean 与 json 相互转换 bean2json json2beanList 与 json 相互转换 list2json json2listMap 与 json 相互转换map2json json2map。原创 2023-10-19 19:33:07 · 38229 阅读 · 0 评论 -
Gson FastJson Jackson 出来 Date LocalDate LocalDateTime 日期类型JSON格式字符串
要在使用Gson库进行属性为DateLocalDate和的对象的序列化和反序列化时,可以使用注解来指定日期的格式化方式。Gson库支持和注解。注解:用于指定JSON属性的名称。可以将注解应用在对象的属性上,指定对应的JSON属性名称。注解:用于指定自定义的JsonAdapter类。可以将注解应用在对象的属性上,指定对应的JsonAdapter类来进行日期的格式化和反格式化。下面是一个示例代码,演示如何使用注解来格式化输出属性为DateLocalDate和在上述代码中,定义了一个DataObject。原创 2023-10-18 11:36:52 · 36607 阅读 · 0 评论 -
Java 字符串工具类
【代码】Java 字符串工具类。原创 2023-10-17 17:23:53 · 38374 阅读 · 0 评论 -
Java 代码 实现 字符串去掉左边空格 字符串去掉右边空格
public static String ltrim(String string) { if (string == null) return null; return string.replaceAll("^\\s+", "");}public static String rtrim(String string) { if (string == null) return null; return string.replaceAll("\\s+$", "");}原创 2023-10-17 15:32:46 · 37382 阅读 · 0 评论 -
JAVA代码实现十大经典排序算法
n: 数据规模k: “桶”的个数In-place: 占用常数内存,不占用额外内存Out-place: 占用额外内存。原创 2023-10-10 17:28:50 · 38749 阅读 · 0 评论 -
HDFS Single Node Java API
HDFS Single Node Java API Java APIpom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xs原创 2023-08-31 14:33:04 · 40226 阅读 · 0 评论 -
使用逗号方式、JOIN方式和USING方式进行多表连接查询时哪个方式更好
在Oracle中,使用逗号方式、JOIN方式和USING方式进行多表连接查询时,性能上没有明显的差异。这是因为Oracle优化器会自动将这些语法转换为内部执行计划,以获得最佳的查询性能。原创 2023-08-03 20:11:39 · 44464 阅读 · 0 评论 -
Sql Developer日期显示格式问题
-- sqldeveloper 中执行日期条件 (NLS日期格式设置导致)SELECT last_name FROM employees WHERE hire_date = '03-6月-17';-- sqlplus 中执行日期条件SELECT last_name FROM employees WHERE hire_date = '2003-06-17';原创 2023-07-23 17:28:29 · 48986 阅读 · 0 评论 -
HDFS 常用命令
这些命令可以在 Hadoop 集群的命令行界面上执行,用于管理和操作 HDFS 中的文件和目录。可以通过在命令后添加。以下命令中的 hadoop fs 在高版本的 Hadoop 中 可以使用 hdfs dfs 替换。选项来获取每个命令的详细用法和选项。原创 2023-07-07 16:39:42 · 71222 阅读 · 0 评论