大数据
文章平均质量分 72
大数据学习
冲鸭嘟嘟可
好好学习,天天向上。个人网站:http://fuhaoblog.xyz/
展开
-
clickhouse卸载与安装
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),来自于俄罗斯本土搜索引擎企业Yandex公司。它是为处理大规模数据集而设计的,并提供高性能和低延迟的查询支持。原创 2024-05-10 13:25:15 · 638 阅读 · 0 评论 -
机器学习项目实战 -- 电信用户的流失分析与预测
关于用户留存有这样一个观点:如果将用户流失率降低5%,公司利润将提升25%-85%。而流失分析的目的就是,通过这些因素采取措施,从而达到降低流失率的目的。原创 2024-03-31 09:31:19 · 2048 阅读 · 0 评论 -
scala笔记
字面量包括整形字面量、浮点数子面量、布尔型字面量、字符字面量、字符串字面量、符号字面量、函数字面量和元组字面量除了函数字面量我们比较陌生以外,其他几种字面量都很容易理解。原创 2023-12-11 17:53:02 · 293 阅读 · 0 评论 -
hadoop安装包解压之后的操作
进入hadoop-3.2.4/etc/hadoop/在mapred-site.xml增加。原创 2023-12-14 10:11:24 · 294 阅读 · 0 评论 -
Spark中使用scala完成数据抽取任务 -- 总结
任务二:离线数据处理,校赛题目需要使用spark框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个字段设置字段的格式 第二个任务和第一个的内容几乎一样。原创 2023-12-21 19:38:13 · 2408 阅读 · 1 评论 -
Spark Machine Learning进行数据挖掘的简单应用(兴趣预测问题)
使用SparkSession中的builder()构建 后续设定appName 和master ,最后使用getOrCreate()完成构建// 定义spark对象val spark = SparkSession.builder().appName("兴趣预测").master("local[*]").getOrCreate()原创 2023-12-22 18:18:37 · 2340 阅读 · 0 评论 -
如何构建Hive数据仓库Hive 、数据仓库的存储方式 以及hive数据的导入导出
官方定义:数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。(1)安装hive常规配置,这里不记录安装过程唯一需要注意的地方是有一个hive.metastroe.dirname属性需要配置配置的值是hive元数据的存储路径,一般为hdfs文件系统的路径。安装完成后,需要在mysql中建立配置中指定的数据库并初始化Hive源数据库(2)安装完成之后就可以启动hive。原创 2024-03-04 18:27:56 · 1750 阅读 · 0 评论