爱学习的Neehong-CSDN博客

原创大数据实战项目之新闻话题分析学习笔记（一）——实战前hadoop2.X必修课

学习资源学习资源（仅供参考）：https://study.163.com/course/courseLearn.htm?courseId=1004043006#/learn/video?lessonId=1044711277&amp;amp;amp;amp;amp;courseId=1004043006 网课地址-【企业级】大数据项目实战https://blog.csdn.net/u011254180/article...

2019-12-04 20:28:21 1530 1

原创大数据实战项目之新闻话题分析学习笔记（二）——企业项目案例需求分析

文章目录第3章：企业项目案例需求分析案例需求分析系统架构设计系统数据流设计集群资源规划设计第3章：企业项目案例需求分析案例需求分析用户日志行为分析（新闻网）业务需求：1.捕获用户浏览日志信息（TB）2.实时分析前20名流量最高的新闻话题3.实时统计当前线上已曝光的新闻话题4.统计哪个时段用户浏览量最高5.报表等形式展示（提供给业务、领导做决策）系统架构设计系统架构图系统数据...

2019-12-04 20:28:15 1752

原创大数据实战项目之新闻话题分析学习笔记（三）——Linux环境准备与配置

文章目录第4章：Linux环境准备与设置Linux系统常规设置1.设置ip地址2.创建用户3.为本机设置主机名4.主机名映射5.安装SecureCRT工具6.关闭防火墙7.卸载原始的JDK8.root用户下设置无密码切换用户克隆虚拟机并进行相关的配置1.创建我们将要使用的各个目录2.将root用户的目录改变成ynh用户所属的目录3.将JDK安装包通过工具上传到/opt/softwares目录下，并...

2019-12-04 20:28:05 1453

原创大数据实战项目之新闻话题分析学习笔记（四）——hadoop2.X分布式集群部署

文章目录第5章：hadoop2.X分布式集群部署hadoop2.x版本下载和安装hadoop2.x分布式集群配置-hdfshadoop2.x分布式集群配置-yarnhadoop2.x分布式集群配置-取消授权分发到其他各个及节点hdfs启动集群运行测试yarn集群运行mapreduce程序测试配置集群中主节点到各个机器的ssh无秘钥登录配置集群内机器时间同步（使用Linux ntp进行）第5章：h...

2019-12-04 20:27:52 510

原创大数据实战项目之新闻话题分析学习笔记（五）——Zookeeper分布式集群部署

文章目录第6章：Zookeeper分布式集群部署Zookeeper版本下载和安装分布式集群配置和参数介绍Zookeeper服务启动和测试第6章：Zookeeper分布式集群部署Zookeeper版本下载和安装cdh中下载解压瘦身/modules/zoo……中的docs分布式集群配置和参数介绍备注：第一个端口：leader和follower通信的端口；第二个端口：leade...

2019-12-04 20:27:44 300

原创大数据实战项目之新闻话题分析学习笔记（六）——hadoop2.x HA架构与部署

文章目录第7章：hadoop2.x HA架构与部署hdfs-HA架构原理介绍hdfs-HA详细配置基于Zookeeper的HA配置hdfs-HA服务启动及自动故障转移测试yarn-HA架构原理介绍yarn-HA详细配置yarn-HA服务启动及自动故障转移测试第7章：hadoop2.x HA架构与部署包括两方面内容：hdfs、yarn。hdfs配置中主要是namenode：因为负责存储数据存...

2019-12-04 20:27:35 352

原创大数据实战项目之新闻话题分析学习笔记（七）——HBase的应用场景及架构原理

文章目录第8章：HBase的应用场景及架构原理HBase能做什么HBase在实际业务场景中的应用HBase的特点HBase数据模型并举例说明HBase表结构模型并举例说明第8章：HBase的应用场景及架构原理HBase能做什么海量数据存储：海量存储与”关系型“数据库对比：海量-HBase一个表能够存储上百亿的行上百万的列；关系型数据库表里一般列设计不超过30个字段，行一般不超过5百万，...

2019-12-04 20:27:24 463

原创大数据实战项目之新闻话题分析学习笔记（八）

文章目录第9章：Hbase分布式集群部署与设计下载HBase版本并安装HBase分布式集群的相关配置HBase相关的服务介绍及启动测试通过Shell进行数据表的操作测试HBase集群中Master-backup配置根据业务需求创建表结构第10章：Kafka分布式集群部署Kafka服务简介及版本下载安装Kafka分布式集群配置启动Kafka依赖于Zookeeper的服务并进行测试Kafka分布式服务...

2019-12-04 20:27:09 526 2

原创大数据实战项目之新闻话题分析学习笔记（九）

文章目录第16章：Hue大数据可视化分析Hue概述及版本下载Hue编译及安装Hue的基本配置与服务启动Hue与HDFS集成Hue与yarn集成Hue与MySql集成Hue与HBase的集成对采集的数据进行可视化分析Hue需要注意的几个地方第17章：Spark2.x环境准备/部署及运行Spark概述及特点Spark生态系统介绍学习spark需要了解的几个重要网站spark2.2源码下载及编译Scal...

2019-12-04 20:26:57 534

原创大数据实战项目之新闻话题分析学习笔记（十）

文章目录第21章：Spark SQL 快速离线数据分析Spark SQL概述及特点Spark SQL服务架构Spark SQL与Hive集成（Spark-Shell）Spark SQL与Hive集成（Spark-sql）Spark SQL之ThirftServer和Beeline使用Spark SQL与MySql(类似的关系数据库)集成Spark Sql与HBase集成分析业务数据（一）Spark...

2019-12-04 20:26:33 1172 6

转载【转载】对数据仓库Hive的一些认识

首先我们得明白什么是数据仓库？数据仓库，英文名称为Data warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。...

2019-02-24 15:31:59 388

转载【转载】hive与hbase的联系与区别

hive与hbase的联系与区别：共同点：1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。他们的底层是要通过mapreduce分布式计算的，hbase、hive、pig底层都是这样的。但整体来说hadoop还是比较快的，因为它是进行海量数据存储和分布式计算，这个速度已经很不错了。区别：2.Hive是建立在Hadoop之上为了减少MapReduce j...

2019-02-24 10:48:36 239

Neehong