![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据平台
窝窝和牛牛
尽量更加详细.....
展开
-
机器学习平台系列(三) - PySpark组件依赖的虚拟环境:Keras 和 Tensorflow 版本对应关系
目录1.背景介绍2.PySpark环境3.问题描述4.原因分析1.背景介绍机器学习平台底层基于大数据平台提供计算资源,在机器学习平台上主要使用 Spark MLlib 实现了共 7 类(源/目标、统计分析、数据预处理、特征工程、机器学习、工具、文本分析) 90+ 个组件(每个组件代表内置的逻辑片段),目的是减少用户重复开发工作、降低机器学习门槛。2.PySpark...原创 2019-11-07 14:06:47 · 698 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(四) - 开发调试(IDEA)
目录1.环境准备2.安装、启动 IDEA3.创建工程3.1 pom文件3.2 测试代码3.3 生成 JAR包4. 运行代码4.1 HADOOP_CLASSPATH4.2 运行 JAR5.结论6.参考资料在系列(二)【https://blog.csdn.net/frank110503/article/details/102871151】和 系列(三)...原创 2019-11-06 11:26:52 · 285 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(三) - 环境准备(Hive)
目录1.环境准备2.安装启动MySQL2.1 安装MySQL2.2 启动MySQL2.3 验证MySQL3.安装 Hive3.1 环境变量3.2 hive-site.xml3.3 hive-env.sh3.4启动Hive4.参考链接上一篇文章中介绍了如何安装和配置 Hadoop 的伪分布式环境,本篇文章介绍如何安装 Hive 环境。为方便起见,所有...原创 2019-11-04 13:51:59 · 232 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(二) - 环境准备(Hadoop)
目录1. 环境版本2.安装步骤2.1 安装 JDK2.2 在 hosts 文件构建映射关系2.3 解压Hadoop2.4 修改 hadoop-env.sh2.5 修改 core-site.xml2.6 修改 hdfs-site.xml2.7 修改 mapred-site.xml2.8 修改 yarn-site.xml3.启动服务3.1 格式化 Na...原创 2019-11-04 10:04:59 · 181 阅读 · 0 评论 -
大数据平台之 SQL 扫描服务(一) - 需求分析+流程分析+功能分析
目录1. 需求分析2. 流程分析3. 功能分析4. 结论1. 需求分析在最近的工作需求中,想针对大数据平台的 SQL执行 功能加入 SQL检测能力,进而可以在用户将 SQL 提交给 Hive引擎 或者 Spark引擎 执行之前,可以捕获到精确的报错信息,整体流程图如下所示:2. 流程分析主要执行流程如下所示:用户提交 SQL ...原创 2019-11-02 13:21:59 · 440 阅读 · 0 评论