- 博客(10)
- 资源 (3)
- 收藏
- 关注
原创 初探数据平台
1.Yarn 上面有哪几种资源调度策略?并且如何配置?Hadoop规模来看计算资源管理1)Yarn 动态资源2)Spark on Yarn 静态资源调度 动态资源调度Spark 作业一般跑在集群资源好的机器上,一般好的集群会打标签进行区分:例如spark001 hadoop001机器名3)Spark Job 每次触发一个Action 会产启动一个Job运行。 如果跑几次失败,...
2019-10-29 21:54:30 174
原创 死磕Zeppelin~01 【编译安装】
1 Zeppelin 介绍基于 Web网页 进行 交互式的数据分析 的笔记本,有数据可视化功能。支持多种语言,比如SQL,Scala等等zeppelin —> 相当于一个paltform:可插拔式的安装各个环境、组件进行数据分析2 zeppelin主要模块:2.1.zeppelin-server:项目入口,通过Jetty 【web 服务器】内嵌的服务 提供的WebSocket和R...
2019-10-29 20:56:39 423
转载 做好以下四点,拒做 “ 空心 ” 程序员
01、注重原理性知识现在的互联网环境下,注重原理性知识学习的程序员越来越少,特别是在这种培训机构大爆炸的环境下,在网上你会经常看到类似三个月从入门到精通高并发、分布式的广告,我相信培训机构有这套技术的能力,但是我不相信一个初学者有这么好的接收能力。甚至某个培训机构的讲师里,有一个1997年出生的架构师,20岁出头就当上了架构师,真的是后生可畏呀。在我的思维里,架构师不是学出来的,架构师是通过项目...
2019-10-20 23:16:47 96
原创 基于Spark的电影推荐系统(推荐系统~7)
第四部分-推荐系统-实时推荐 本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影。说明几点1.数据来源是 testData 测试集的数据。这里面的用户,可能存在于训练集中,也可能是新用户。因此,这里要做处理。2. SparkStreaming + kakfa开始Coding步骤一:在streaming 包下,新建PopularMovies2pac...
2019-10-20 23:06:26 4804 2
原创 基于Spark的电影推荐系统(推荐系统~6)
第四部分-推荐系统-实时推荐之实时数据加工 把测试集(30%总数据)的数据 ,怼到 Kafka 消息队列里前置准备Kafka系列一之架构介绍和安装Kafka系列三之单节点多Broker部署启动Kafka[root@hadoop001 ~]# nohup kafka-server-start.sh $KAFKA_HOME/config/server-1.properties &am...
2019-10-20 22:29:12 2429
原创 基于Spark的电影推荐系统(推荐系统~5)
第四部分-推荐系统-离线推荐 本模块基于第4节得到的模型,开始为用户做离线推荐,推荐用户最有可能喜爱的5部电影。说明几点1.主要分为两个模块。其一是为 单个随机用户 做推荐,其二是为 所有用户做推荐,并将推荐结果进行保存2. 其中所有推荐的结果保存在 MySQL中,HBase,Hive中 <三种版本>。3. 其中取得的userid一定要存在于模型中, 这样就建议直接从tr...
2019-10-20 21:57:01 2714 3
原创 基于Spark的电影推荐系统(推荐系统~4)
第四部分-推荐系统-模型训练 本模块基于第3节 数据加工得到的训练集和测试集数据 做模型训练,最后得到一系列的模型,进而做 预测。训练多个模型,取其中最好,即取RMSE(均方根误差)值最小的模型说明几点1.ALS 算法不需要自己实现,Spark MLlib 已经实现好了,可以自己 跟源码学习花时间钻研,动手写,写代码 翻译论文 写博客 多下功夫2. 最新http://spark.a...
2019-10-20 21:30:06 4045 2
原创 基于Spark的电影推荐系统(推荐系统~3)
第四部分-推荐系统-3 本模块基于第2节加载到 数据仓库 里的数据做进一步的加工,加工后的数据主要用于 模型训练 。前置准备:本节我采用Spark on Yarn 来跑作业拓展:Hadoop YARN中内存的设置(1)yarn.scheduler.minimum-allocation-mb单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,...
2019-10-20 20:23:47 3226
原创 基于Spark的电影推荐系统(推荐系统~2)
第四部分-推荐系统-2 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去r前置准备:spark +hivevim $SPARK_HOME/conf/hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>...
2019-10-20 19:45:53 5744 1
原创 基于Spark的电影推荐系统(推荐系统~1)
第四部分-推荐系统-1行业背景:快速:Apache Spark以内存计算为核心通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速“猜你喜欢”为代表的推荐系统,从吃穿住行等项目背景介绍:本项目是一个基于Apache Spark 的电影推荐系统,技术路线:离线推荐+实时推荐...
2019-10-20 18:55:07 7916 1
下载地址vagrant box.txt
2020-02-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人