![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据应用
文章平均质量分 79
左瞧瞧右看看
这个作者很懒,什么都没留下…
展开
-
Spark Explain:查看执行计划
Spark SQL explain 方法有 simple、extended、codegen、cost、formatted 参数,具体如下原创 2023-02-25 17:48:30 · 2620 阅读 · 1 评论 -
Linux 虚拟机:大数据集群基础环境搭建(Hadoop、Spark、Flink、Hive、Zookeeper、Kafka、Nginx)
基本信息:Centos-7.9、Java-1.8、Python-3.9、Scala-2.12、Hadoop-3.2.1、Spark-3.1.2、Flink-1.13.1、Hive-3.1.3、Zookeeper-3.8.0、Kafka-3.2.0、Nginx-1.23.1目录一、相关文件下载地址二、虚拟机基础配置三、语言环境安装1. Java 环境安装2. Python 环境安装3. Scala 环境安装四、大数据组件安装1. Hadoop 集群安装2. MySQL 安装3. Spark 安装4. F原创 2023-02-06 08:35:27 · 5472 阅读 · 0 评论 -
Python 模型训练:LSTM 时间序列销售额预测(训练、保存、调用)
LSTM (long short-term memory) 长短期记忆网络,具体理论的就不一一叙述,直接开始原创 2023-01-09 15:46:24 · 3697 阅读 · 3 评论 -
Shell 脚本:Hadoop 集群一键安装脚本
一键安装完全分布式 Hadoop 集群脚本原创 2022-12-27 10:33:30 · 697 阅读 · 0 评论 -
Hive SQL:一列按分隔符切分求每个类型占比
Hive SQL:一列按分隔符切分求每个类型占比原创 2022-12-19 14:06:37 · 947 阅读 · 0 评论 -
PySpark MLlib:逻辑回归模型训练过程(训练、评估、编解码、保存、读取)
模型训练流程一、引入 Spark 环境二、设置模型评估方法三、读取/修改 数据四、编码、合并列五、模型训练逻辑回归朴素贝叶斯六、模型保存七、读取模型测试数据没有做训练测试集划分,直接全量训练,全量测试一、引入 Spark 环境from pyspark.sql import SparkSessionspark = SparkSession.builder.master("local[*]").getOrCreate()二、设置模型评估方法# 评估from pyspark.ml.evaluati原创 2022-12-15 08:31:51 · 818 阅读 · 1 评论 -
Python 模型训练:逻辑回归、KNN、朴素贝叶斯、LDA、支持向量机、GBDT、决策树
常用的分类预测模型:逻辑回归、KNN、朴素贝叶斯、LDA、SVC、GBDT、决策树原创 2022-12-12 23:14:44 · 4231 阅读 · 0 评论 -
Spark 调优:数据倾斜解决方案、Shuffle、Stage
数据倾斜导致的后果,一般是 OOM 或者 速度异常慢原创 2022-12-09 09:44:18 · 223 阅读 · 0 评论 -
Zookeeper 应用:Java 基本操作
Zookeeper:分布式协调服务,数据存储在内存中(每个节点不超过 1M),采用分层存储结构,可以通过不同的路径访问到不同的节点。原创 2022-12-02 14:18:57 · 160 阅读 · 0 评论 -
Doris 入门:高级特性(四)
目录一、表结构变更二、Rollup三、增大内存四、修改超时时间五、Broadcast/Shuffle Join六、数据模型七、索引八、物化视图九、动态分区十、数据导出十一、Colocation Join十二、SQL 函数一、表结构变更添加列:alter table table1 add column uv bigint sum default ‘0’ after pv;删除列:alter table table1 drop column uv;查看状态:show alter table colum原创 2022-11-24 12:09:20 · 4506 阅读 · 0 评论 -
Doris 入门:基本操作(三)
目录一、创建用户和数据库二、建表1. 基本概念2. 创建表3. 数据导入三、代码案例一、创建用户和数据库创建用户CREATE USER ‘test’ IDENTIFIED BY ‘123456’;后续登录就可以直接使用命令登录mysql -h 192.168.1.101 -P9030 -utest -p12345创建数据库并赋予权限初始可以通过 root 或 admin 用户创建数据库create database test_db;查看数据库show databa原创 2022-11-23 09:41:14 · 2725 阅读 · 0 评论 -
Doris 入门:集群部署(二)
使用最新的 1.1.4 版本 Doris 进行部署 云服务器环境: 三台服务器 hybrid01、hybrid02、hybrid03,Centos7.9,2C4G,40G 硬盘 资源规划hybrid01:FE(Leader)、BE、Brokerhybrid02:FE(Follower)、BE、Brokerhybrid03:FE(Follower/Observer)、BE、Broker目录一、源码编译二、安装部署1. FE 配置2. MySQL Client3. 配置 BE4. 配原创 2022-11-22 10:27:42 · 950 阅读 · 1 评论 -
Doris 入门:基础知识(一)
Apache Doris 是一个高性能、简单易用、支持实时的 MPP 架构分析型数据库目录一、MPP 架构二、OLTP、OLAP三、Doris 概述四、整体架构五、总结一、MPP 架构介绍全称 Massively Parallel Processor,翻译过来就是大规模并行处理在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上每台数据节点通过专用网络或者商业网络互相连接,彼此协同计算,作为整体提供数据库服务非共享数据库集原创 2022-11-21 09:43:27 · 355 阅读 · 0 评论 -
数据采集:使用 Nginx 作为数据接收端
埋点数据怎么接收?如何使用 Nginx 接收埋点数据?Nginx 数据接收端简单配置原创 2022-11-04 23:27:13 · 1529 阅读 · 0 评论