留歌__36的博客

我是留歌，这里是留歌36。很高兴被你发现！留歌是一个爱折腾的程序员。如果你也喜欢我的文章，欢迎订阅和关注。谢谢大家～我的个人网站： how2s.cn

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创初探数据平台

1.Yarn 上面有哪几种资源调度策略？并且如何配置？Hadoop规模来看计算资源管理1）Yarn 动态资源2）Spark on Yarn 静态资源调度动态资源调度Spark 作业一般跑在集群资源好的机器上，一般好的集群会打标签进行区分：例如spark001 hadoop001机器名3）Spark Job 每次触发一个Action 会产启动一个Job运行。如果跑几次失败，...

2019-10-29 21:54:30 174

原创死磕Zeppelin~01 【编译安装】

1 Zeppelin 介绍基于 Web网页进行交互式的数据分析的笔记本，有数据可视化功能。支持多种语言，比如SQL,Scala等等zeppelin —> 相当于一个paltform:可插拔式的安装各个环境、组件进行数据分析2 zeppelin主要模块：2.1.zeppelin-server:项目入口，通过Jetty 【web 服务器】内嵌的服务提供的WebSocket和R...

2019-10-29 20:56:39 423

01、注重原理性知识现在的互联网环境下，注重原理性知识学习的程序员越来越少，特别是在这种培训机构大爆炸的环境下，在网上你会经常看到类似三个月从入门到精通高并发、分布式的广告，我相信培训机构有这套技术的能力，但是我不相信一个初学者有这么好的接收能力。甚至某个培训机构的讲师里，有一个1997年出生的架构师，20岁出头就当上了架构师，真的是后生可畏呀。在我的思维里，架构师不是学出来的，架构师是通过项目...

2019-10-20 23:16:47 96

原创基于Spark的电影推荐系统（推荐系统~7）

第四部分-推荐系统-实时推荐本模块基于第4节得到的模型，开始为用户做实时推荐，推荐用户最有可能喜爱的5部电影。说明几点1.数据来源是 testData 测试集的数据。这里面的用户，可能存在于训练集中，也可能是新用户。因此，这里要做处理。2. SparkStreaming + kakfa开始Coding步骤一：在streaming 包下，新建PopularMovies2pac...

2019-10-20 23:06:26 4804 2

原创基于Spark的电影推荐系统（推荐系统~6）

第四部分-推荐系统-实时推荐之实时数据加工把测试集（30%总数据）的数据，怼到 Kafka 消息队列里前置准备Kafka系列一之架构介绍和安装Kafka系列三之单节点多Broker部署启动Kafka[root@hadoop001 ~]# nohup kafka-server-start.sh $KAFKA_HOME/config/server-1.properties &am...

2019-10-20 22:29:12 2429

原创基于Spark的电影推荐系统（推荐系统~5）

第四部分-推荐系统-离线推荐本模块基于第4节得到的模型，开始为用户做离线推荐，推荐用户最有可能喜爱的5部电影。说明几点1.主要分为两个模块。其一是为单个随机用户做推荐，其二是为所有用户做推荐，并将推荐结果进行保存2. 其中所有推荐的结果保存在 MySQL中，HBase，Hive中 <三种版本>。3. 其中取得的userid一定要存在于模型中，这样就建议直接从tr...

2019-10-20 21:57:01 2714 3

原创基于Spark的电影推荐系统（推荐系统~4）

第四部分-推荐系统-模型训练本模块基于第3节数据加工得到的训练集和测试集数据做模型训练，最后得到一系列的模型，进而做预测。训练多个模型，取其中最好，即取RMSE(均方根误差)值最小的模型说明几点1.ALS 算法不需要自己实现，Spark MLlib 已经实现好了，可以自己跟源码学习花时间钻研，动手写，写代码翻译论文写博客多下功夫2. 最新http://spark.a...

2019-10-20 21:30:06 4045 2

原创基于Spark的电影推荐系统（推荐系统~3）

第四部分-推荐系统-3 本模块基于第2节加载到数据仓库里的数据做进一步的加工，加工后的数据主要用于模型训练。前置准备：本节我采用Spark on Yarn 来跑作业拓展：Hadoop YARN中内存的设置（1）yarn.scheduler.minimum-allocation-mb单个任务可申请的最少物理内存量，默认是1024（MB），如果一个任务申请的物理内存量少于该值，...

2019-10-20 20:23:47 3226

原创基于Spark的电影推荐系统（推荐系统~2）

第四部分-推荐系统-2 本模块完成数据清洗，并将清洗后的数据load到Hive数据表里面去r前置准备：spark +hivevim $SPARK_HOME/conf/hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>...

2019-10-20 19:45:53 5744 1

原创基于Spark的电影推荐系统（推荐系统~1）

第四部分-推荐系统-1行业背景：快速：Apache Spark以内存计算为核心通用：一站式解决各个问题，ADHOC SQL查询，流计算，数据挖掘，图计算完整的生态圈只要掌握Spark,就能够为大多数的企业的大数据应用场景提供明显的加速“猜你喜欢”为代表的推荐系统，从吃穿住行等项目背景介绍：本项目是一个基于Apache Spark 的电影推荐系统，技术路线：离线推荐+实时推荐...

2019-10-20 18:55:07 7916 1

下载地址vagrant box.txt

由于使用vagrant 进行创建虚机的时候，vagrant 并没有国内源。如果直接使用默认的源进行虚拟机的构建，巨慢~~~~，可以把这个文件下载下来， vagrant box add centos7 centos-7.0-x86_64.box ，完美解决

2020-02-13

基于Spark电影推荐系统-数据表SQL

2019-01-10

重庆区县GeoJson文件

重庆区县的GeoJson,下载就可以使用与Echarts绘图

2018-12-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人