自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

留歌__36的博客

我是留歌,这里是留歌36。很高兴被你发现!留歌是一个爱折腾的程序员。如果你也喜欢我的文章,欢迎订阅和关注。谢谢大家~ 我的个人网站: how2s.cn

  • 博客(10)
  • 资源 (3)
  • 收藏
  • 关注

原创 初探数据平台

1.Yarn 上面有哪几种资源调度策略?并且如何配置?Hadoop规模来看计算资源管理1)Yarn 动态资源2)Spark on Yarn 静态资源调度 动态资源调度Spark 作业一般跑在集群资源好的机器上,一般好的集群会打标签进行区分:例如spark001 hadoop001机器名3)Spark Job 每次触发一个Action 会产启动一个Job运行。 如果跑几次失败,...

2019-10-29 21:54:30 174

原创 死磕Zeppelin~01 【编译安装】

1 Zeppelin 介绍基于 Web网页 进行 交互式的数据分析 的笔记本,有数据可视化功能。支持多种语言,比如SQL,Scala等等zeppelin —> 相当于一个paltform:可插拔式的安装各个环境、组件进行数据分析2 zeppelin主要模块:2.1.zeppelin-server:项目入口,通过Jetty 【web 服务器】内嵌的服务 提供的WebSocket和R...

2019-10-29 20:56:39 423

转载 做好以下四点,拒做 “ 空心 ” 程序员

01、注重原理性知识现在的互联网环境下,注重原理性知识学习的程序员越来越少,特别是在这种培训机构大爆炸的环境下,在网上你会经常看到类似三个月从入门到精通高并发、分布式的广告,我相信培训机构有这套技术的能力,但是我不相信一个初学者有这么好的接收能力。甚至某个培训机构的讲师里,有一个1997年出生的架构师,20岁出头就当上了架构师,真的是后生可畏呀。在我的思维里,架构师不是学出来的,架构师是通过项目...

2019-10-20 23:16:47 96

原创 基于Spark的电影推荐系统(推荐系统~7)

第四部分-推荐系统-实时推荐 本模块基于第4节得到的模型,开始为用户做实时推荐,推荐用户最有可能喜爱的5部电影。说明几点1.数据来源是 testData 测试集的数据。这里面的用户,可能存在于训练集中,也可能是新用户。因此,这里要做处理。2. SparkStreaming + kakfa开始Coding步骤一:在streaming 包下,新建PopularMovies2pac...

2019-10-20 23:06:26 4804 2

原创 基于Spark的电影推荐系统(推荐系统~6)

第四部分-推荐系统-实时推荐之实时数据加工 把测试集(30%总数据)的数据 ,怼到 Kafka 消息队列里前置准备Kafka系列一之架构介绍和安装Kafka系列三之单节点多Broker部署启动Kafka[root@hadoop001 ~]# nohup kafka-server-start.sh $KAFKA_HOME/config/server-1.properties &am...

2019-10-20 22:29:12 2429

原创 基于Spark的电影推荐系统(推荐系统~5)

第四部分-推荐系统-离线推荐 本模块基于第4节得到的模型,开始为用户做离线推荐,推荐用户最有可能喜爱的5部电影。说明几点1.主要分为两个模块。其一是为 单个随机用户 做推荐,其二是为 所有用户做推荐,并将推荐结果进行保存2. 其中所有推荐的结果保存在 MySQL中,HBase,Hive中 <三种版本>。3. 其中取得的userid一定要存在于模型中, 这样就建议直接从tr...

2019-10-20 21:57:01 2714 3

原创 基于Spark的电影推荐系统(推荐系统~4)

第四部分-推荐系统-模型训练 本模块基于第3节 数据加工得到的训练集和测试集数据 做模型训练,最后得到一系列的模型,进而做 预测。训练多个模型,取其中最好,即取RMSE(均方根误差)值最小的模型说明几点1.ALS 算法不需要自己实现,Spark MLlib 已经实现好了,可以自己 跟源码学习花时间钻研,动手写,写代码 翻译论文 写博客 多下功夫2. 最新http://spark.a...

2019-10-20 21:30:06 4045 2

原创 基于Spark的电影推荐系统(推荐系统~3)

第四部分-推荐系统-3 本模块基于第2节加载到 数据仓库 里的数据做进一步的加工,加工后的数据主要用于 模型训练 。前置准备:本节我采用Spark on Yarn 来跑作业拓展:Hadoop YARN中内存的设置(1)yarn.scheduler.minimum-allocation-mb单个任务可申请的最少物理内存量,默认是1024(MB),如果一个任务申请的物理内存量少于该值,...

2019-10-20 20:23:47 3226

原创 基于Spark的电影推荐系统(推荐系统~2)

第四部分-推荐系统-2 本模块完成数据清洗,并将清洗后的数据load到Hive数据表里面去r前置准备:spark +hivevim $SPARK_HOME/conf/hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>...

2019-10-20 19:45:53 5744 1

原创 基于Spark的电影推荐系统(推荐系统~1)

第四部分-推荐系统-1行业背景:快速:Apache Spark以内存计算为核心通用 :一站式解决各个问题,ADHOC SQL查询,流计算,数据挖掘,图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速“猜你喜欢”为代表的推荐系统,从吃穿住行等项目背景介绍:本项目是一个基于Apache Spark 的电影推荐系统,技术路线:离线推荐+实时推荐...

2019-10-20 18:55:07 7916 1

下载地址vagrant box.txt

由于使用vagrant 进行创建虚机的时候,vagrant 并没有国内源。如果直接使用默认的源进行虚拟机的构建,巨慢~~~~,可以把这个文件下载下来, vagrant box add centos7 centos-7.0-x86_64.box ,完美解决

2020-02-13

基于Spark电影推荐系统-数据表SQL

基于Spark电影推荐系统-数据表SQL

2019-01-10

重庆区县GeoJson文件

重庆区县的GeoJson,下载就可以使用与Echarts绘图

2018-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除