大数据
文章平均质量分 90
杀神lwz
是日已过,命亦随减;如少水鱼,斯有何乐;当勤精进,如救头燃;但念无常,慎勿放逸;
展开
-
Apache Spark
简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。Spark是一款分布式内存计算的统一分析引擎。原创 2024-03-25 00:26:48 · 407 阅读 · 0 评论 -
Apache HBase(二)
2. 在配置文件hbase-site.xml 文件中增加如下配置-->分发到集群其他机器。能够展示HBase中所有能使用的命令,主要使用的命令有。查看命令使用方式以create_namespace为例。上面命令中的list相当于数据库中的show命令。再进行下面命令行操作。问题:创建namespace报错!1、进入HBase客户端命令行。1. 停止hbase集群。3. 从启hbase集群。原创 2024-03-25 00:26:33 · 699 阅读 · 0 评论 -
Apache Flink
Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月, Flink一跃成为Apache软件基金会的顶级项目。在德语中,Flink一词表示快速和灵巧,项目采用一只松鼠的彩色图案作为logo,这不仅是因为松鼠具有快速和灵巧。原创 2024-03-19 23:07:23 · 1363 阅读 · 0 评论 -
Apache Storm
Storm是一个分布式计算框架,主要使用Clojure与Java语言编写,最初是由Nathan Marz带领Backtype公司团队创建,在Backtype公司被Twitter公司收购后进行开源。最初的版本是在2011年9月17日发行,版本号0.5.0。2013年9月,Apache基金会开始接管并孵化Storm项目。Apache Storm是在Eclipse Public License 下进行开发的,它提供给大多数企业使用。经过1年多时间,2014年9月,Storm项目成为Apache的顶级项目。原创 2024-03-19 23:05:22 · 919 阅读 · 0 评论 -
FineBI软件--可视化报表
FineBI是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI是定位于自助大数据分析的BI工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。多人协作可视化各种应用场景各种常见的分析图表和各种数据源大数据。原创 2024-03-12 23:28:40 · 426 阅读 · 0 评论 -
大数据技术-Apache Superset
Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。Superset官网地址部署环境:CentOS 7,MySQL数据库Superset是由Python语言编写的Web应用,要求Python3.7的环境。但后面安装Superset环境:初始化Superset数据库 superset db upgrade操作有环境问题。故:此时需要,创建Python3.8环境。Linux自带Pyt原创 2022-07-08 09:02:24 · 1915 阅读 · 0 评论 -
Apache HBase(一)
HBase使用与Bigtable非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可以具有疯狂变化的列。HBase 的设计理念依据Google的BigTable论文,论文中对于数据模型的首句介绍。映射中的每个值都是一个未解释的字节数组。Apache HBase™是以hdfs为数据存储的,一种。指代非关系型数据库的key-Value结构。稀疏的、分布式的、持久的。稀疏、分布式、多维、排序。的NoSQL数据库。原创 2024-03-09 09:26:33 · 729 阅读 · 0 评论 -
Apache Hive(三)
数据问题问题1:当前数据中,有一些数据的字段为空,不是合法数据解决:where 过滤问题2:需求中,需要统计每天、每个小时的消息量,但是数据中没有天和小时字段,只有整体时间字段,不好处理解决:Substr函数问题3:从GPS的经纬度中提取经度和纬度解决:split函数问题4:将ETL以后的结果保存到一张新的Hive表中解决:create table ... as select ....原创 2024-03-09 09:25:44 · 584 阅读 · 0 评论 -
Apache Hive(二)
1、Hive SQL DML语法之加载数据。2、Hive SQL DML语法之查询数据。3、Hive SQL Join关联查询。4、Hive SQL 中的函数使用。原创 2024-01-21 23:26:35 · 591 阅读 · 0 评论 -
数据仓库 & Apache Hive
数据仓库(英语:Data Warehouse,简称数仓、DW),是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持思考:1、假如你现在手里有200w,当下的时间点去投资口罩生成,你做不做?能不能赚钱?2、假如你是公司营销总监,是否愿意招聘女主播进行短视频带货直播销售?原创 2024-01-12 00:31:24 · 656 阅读 · 0 评论 -
Hadoop分布式文件系统(三)
Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。原创 2024-01-12 00:04:15 · 755 阅读 · 0 评论 -
Hadoop分布式文件系统(二)
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问和查找变得容易。文件系统使用树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念,用户不必关心数据底层存在硬盘哪里,只需要记住这个文件的所属目录和文件名即可。文件系统通常使用硬盘和光盘这样的存储设备,并维护文件在设备中的物理位置。原创 2024-01-04 00:09:44 · 1231 阅读 · 0 评论 -
Hadoop分布式文件系统(一)
狭义上Hadoop指的是Apache软件基金会的一款开源软件。如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端,导致企业一线。生活中类比工厂的流水线:结论:流式其实也是变种的并行计算。第二个副本:放置在于第一个副本不同的 机架的节点上。广义上Hadoop指的是围绕Hadoop打造的。一个程序员最重要的能力是:写出高质量的代码!原创 2023-09-25 22:51:44 · 1019 阅读 · 0 评论