大数据
文章平均质量分 95
其中包括Hadoop、Spark、Flink、Flume等当今流行的大数据处理平台的知识总结和每个框架的安装部署等
IronmanJay
十年饮冰,难凉热血。
展开
-
程序部署与运行——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(十)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客原创 2022-05-05 14:07:21 · 1714 阅读 · 4 评论 -
综合业务服务与用户可视化建设——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(九)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客原创 2022-05-04 16:04:27 · 1792 阅读 · 2 评论 -
实时推荐服务建设——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(八)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客原创 2022-05-03 14:42:54 · 1836 阅读 · 0 评论 -
离线推荐服务建设——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(七)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客原创 2022-04-26 22:08:27 · 3320 阅读 · 0 评论 -
创建项目并初始化业务数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(六)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)……项目资源下载电影推荐系统网站项目源码Github地址(可Fork可Cl原创 2022-04-24 21:23:39 · 2612 阅读 · 1 评论 -
基础环境搭建——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(五)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)……项目资源下载电影推荐系统网站项目源码Github地址(可Fork可Clone)电影推荐系统网站项目源码Gitee地址(可Fork可Clone)电影原创 2022-03-23 22:23:06 · 4490 阅读 · 0 评论 -
项目体系架构设计——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(四)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)……项目资源下载电影推荐系统网站项目源码Github地址(可Fork可Clone)电影推荐系统网站项目源码Gitee地址(可Fork可Clone)电影推荐系统网站项目源码压缩包下载(直接使用)电影推荐系统网站项目源码所需全部工具合集原创 2022-03-20 22:27:34 · 4458 阅读 · 1 评论 -
项目主要效果展示——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(三)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)……项目资源下载电影推荐系统网站项目源码Github地址(可Fork可Clone)电影推荐系统网站项目源码Gitee地址(可Fork可Clone)电影推荐系统网站项目源码压缩包下载(直接使用)电影推荐系统网站项目源码所需全部工具合集打包下载(spark、kafka、flume、tomcat、azkaban、elas原创 2022-03-18 20:57:17 · 3063 阅读 · 0 评论 -
利用用户行为数据——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(二)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)……项目资源下载电影推荐系统网站项目源码Github地址(可Fork可Clone)电影推荐系统网站项目源码Gitee地址(可Fork可Clone)电影推荐系统网站项目源码压缩包下载(直接使用)电影推荐系统网站项目源码所需全部工具合集打包下载(spark、kafka、flume、tomcat、azkaban、elasticsearch、zookeeper)电影推荐系统网站项目源数据(可直接使用)原创 2022-03-18 11:05:54 · 4035 阅读 · 3 评论 -
初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)
系列文章目录初识推荐系统——基于Spark平台的协同过滤实时电影推荐系统项目系列博客(一)……项目资源下载电影推荐系统网站项目源码Github地址(可Fork可Clone)电影推荐系统网站项目源码Gitee地址(可Fork可Clone)电影推荐系统网站项目源码压缩包下载(直接使用)电影推荐系统网站项目源码所需全部工具合集打包下载(spark、kafka、flume、tomcat、azkaban、elasticsearch、zookeeper)电影推荐系统网站项目源数据(可直接使用)原创 2022-03-14 11:09:38 · 5670 阅读 · 5 评论 -
基于Spark平台的协同过滤实时电影推荐系统
摘要:随着社会逐渐进入信息过载时代,人们对电影个性化推荐服务的要求与日俱增。本文以协同过滤算法为基础进而发掘用户与用户之间的隐含关联,不同电影之间的隐性信息,采集并分析用户对电影的操作记录对用户进行个性化的模型构建,并利用Flume与Kafka建立数据管道,通过Spark系统进行快速计算,从而完成对用户的实时个性化电影推荐。关键词:个性化推荐;协同过滤;实时推荐;电影推荐;Spark;原创 2022-03-10 20:38:11 · 4716 阅读 · 1 评论 -
大数据技术之Hadoop完全分布式集群搭建+Centos7配置连通外网和主机
一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。Hadoop并不只是单单一个技术,而是一个生态圈,里面包括Spark、Flume、HBase、Kafka、Sqoop、Hive、Oozie、Azkaban、Zookeeper。二、Hadoop组成1、Hadoop1.x &n...原创 2020-03-18 16:40:38 · 758 阅读 · 0 评论 -
大数据技术之Flink电商用户行为分析系统(用户画像)
主流的批处理和流处理框架Hadoop中的MapReduce只能做离线计算,也就是批处理,并且基于磁盘计算,属于IO密集型,Shuffle阶段需要大量算力,并且只有map和reduceSpark作为一个微批处理的大数据计算框架,主要作用就是类似MapReduce,Spark Streaming可以实现传统意义上的流式计算,但是正如开头所说,属于微批处理,并不是完全的实时,但是Spark基于内存运算,计算能力非常强大Storm是真正的流式处理,来一条数据处理一条,但是对于超大流量Storm的处理并不太原创 2020-06-21 22:33:41 · 3802 阅读 · 4 评论 -
大数据技术之Flume系统知识整理(从安装到熟练操作)
一、Flume基础介绍1、Flume是什么 下图为Flume图标(湍急的河流里有一个木头) Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。2、Flume能干什么 作为大数据体系结构重要的一环,Flume作为日志收集数据,并可以在日志系统中定制Source,sink(也就是数据发送方,接收方);同时还可以对数据进行简单处理,并有将数据写入Hb原创 2020-07-01 22:36:23 · 1232 阅读 · 0 评论 -
大数据技术之HBase系统知识整理(从安装到熟练操作)
HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库原创 2020-07-16 22:51:23 · 1948 阅读 · 0 评论 -
大数据技术之Hadoop分布式计算框架MapReduce系统知识整理(从入门到熟练操作)
系列博客1、大数据技术之Hadoop完全分布式集群搭建+Centos7配置连通外网和主机2、大数据技术之Hadoop编译源码3、大数据技术之Hadoop分布式文件系统HDFS系统知识整理(从入门到熟练操作)4、大数据技术之Hadoop分布式计算框架MapReduce系统知识整理(从入门到熟练操作)文章目录一、MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 .原创 2020-08-18 11:02:47 · 1195 阅读 · 0 评论 -
大数据技术之Hadoop分布式文件系统HDFS系统知识整理(从入门到熟练操作)
文章目录一、HDFS概述1.1 HDFS产生背景1.2 HDFS定义1.3 HDFS使用场景1.4 HDFS优缺点1.4.1 优点1.4.2 缺点一、HDFS概述1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种1.2 HDFS定义 HDFS(Hadoop Dis原创 2020-08-10 21:42:25 · 1556 阅读 · 0 评论 -
大数据技术之Hadoop编译源码
文章目录一、前期准备工作二、jar包安装2.1 安装JDK2.2 安装Maven2.2 安装Ant一、前期准备工作配置CentOS能连接外网,保证Linux虚拟机ping www.baidu.com是畅通的全程使用root用户编译,减少文件夹权限出现问题jar包准备①:hadoop-2.7.2-src.tar.gz(Hadoop源码)②:jdk-8u144-linux-x64.tar.gz(JDK8)③:apache-ant-1.9.9-bin.tar.gz(build打包工具)④:apa原创 2020-07-19 22:34:07 · 345 阅读 · 0 评论