- 博客(7)
- 收藏
- 关注
原创 知识储备(更新中)
注:如遇到不会的问题,可转换为pandas,numpy进行数据处理解决。注:本课程很详细,理论部分(7-17),实操是从18开始的。注:样题和24上半年机器学习重点是随机森林调参。
2024-09-12 10:10:44 212
原创 离线数仓学习网站
Hadoop3.x:Hadoop3.x进阶:Hadoop高可用集群:Spark:Spark调优:Flink:Zookeeper:Hive:HA:Flume:Kafka3.x:HBase:Sqoop:Oozie:Scala:【大数据项目实战】Spark实时项目:电信客服:机器学习与推荐系统:电商推荐系统:电商数仓V2.0:电商数仓V3.0:电商数仓V4.0:Flink实时数仓:
2023-11-25 20:10:06 67
原创 hive伪分布
之后会让你输入密码,正常输入切换root用户的密码,输入密码没有提示,正确输入就可以切换到root用户,密码错误会提示。密码在localhost后面注意不要把空格复制了,每个人密码不同的。输入Hadoop的路径和hive_conf_dir的路径。复制hive-env.sh.template。解压命令中不要出现z,出现z将无法正常解压。配置hive-site.xml。配置hive-site.xml。编辑hive-env.sh。路径根据自己电脑上的来写。查看MySQL启动状态。路径根据自己的路径来写。
2023-11-10 20:30:11 72 1
原创 hive完全分布式搭建
解决jline的版本冲突,将$ HIVE_HOME/lib/jline-2.12.jar同步至$HADOOP_HOME/share/hadoop/yarn/lib/下。将Hive安装包解压到指定路径/usr/hive(安装包存放于/usr/package277)修改HIVE运行环境,配置Hive运行资源库路径HIVE_AUX_JARS_PATH。配置元数据数据存储位置为/user/hive_remote/warehouse。修改HIVE运行环境,配置Hive配置文件存放路径HIVE_CONF_DIR。
2023-11-10 20:19:55 234 1
原创 shopxo数据采集
(1)以信用得分ProsperScore为变量,对借款进行计数统计(降序),结果写入本地/root/college001/中。结果写入/root/college022/(0/300分)(4)将提供的分析数据导入到表loan中,并统计数据至本地/root/college000/中(0/100)分。(1)查找缺失值,将表中价格为空(null)的数据,写入至/root/college023/(0/200)分。(2)对中间表数据所有行进行统计,结果写入/root/college024/(0/200)分。
2023-07-04 11:00:02 326
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人