![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据平台
窝窝和牛牛
尽量更加详细.....
展开
-
机器学习平台系列(三) - PySpark组件依赖的虚拟环境:Keras 和 Tensorflow 版本对应关系
目录 1.背景介绍 2.PySpark环境 3.问题描述 4.原因分析 1.背景介绍 机器学习平台底层基于大数据平台提供计算资源,在机器学习平台上主要使用 Spark MLlib 实现了共 7 类(源/目标、统计分析、数据预处理、特征工程、机器学习、工具、文本分析) 90+ 个组件(每个组件代表内置的逻辑片段),目的是减少用户重复开发工作、降低机器学习门槛。 2.PySpark...原创 2019-11-07 14:06:47 · 693 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(四) - 开发调试(IDEA)
目录 1.环境准备 2.安装、启动 IDEA 3.创建工程 3.1 pom文件 3.2 测试代码 3.3 生成 JAR包 4. 运行代码 4.1 HADOOP_CLASSPATH 4.2 运行 JAR 5.结论 6.参考资料 在系列(二)【https://blog.csdn.net/frank110503/article/details/102871151】和 系列(三)...原创 2019-11-06 11:26:52 · 276 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(三) - 环境准备(Hive)
目录 1.环境准备 2.安装启动MySQL 2.1 安装MySQL 2.2 启动MySQL 2.3 验证MySQL 3.安装 Hive 3.1 环境变量 3.2 hive-site.xml 3.3 hive-env.sh 3.4启动Hive 4.参考链接 上一篇文章中介绍了如何安装和配置 Hadoop 的伪分布式环境,本篇文章介绍如何安装 Hive 环境。为方便起见,所有...原创 2019-11-04 13:51:59 · 228 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(二) - 环境准备(Hadoop)
目录 1. 环境版本 2.安装步骤 2.1 安装 JDK 2.2 在 hosts 文件构建映射关系 2.3 解压Hadoop 2.4 修改 hadoop-env.sh 2.5 修改 core-site.xml 2.6 修改 hdfs-site.xml 2.7 修改 mapred-site.xml 2.8 修改 yarn-site.xml 3.启动服务 3.1 格式化 Na...原创 2019-11-04 10:04:59 · 174 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(一) - 需求分析+流程分析+功能分析
目录 1. 需求分析 2. 流程分析 3. 功能分析 4. 结论 1. 需求分析 在最近的工作需求中,想针对大数据平台的 SQL执行 功能加入 SQL检测能力,进而可以在用户将 SQL 提交给 Hive引擎 或者 Spark引擎 执行之前,可以捕获到精确的报错信息,整体流程图如下所示: 2. 流程分析 主要执行流程如下所示: 用户提交 SQL ...原创 2019-11-02 13:21:59 · 431 阅读 · 0 评论