![](https://img-blog.csdnimg.cn/direct/57b07bc2805e47cf918e26916d2c82e5.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据技术基础
文章平均质量分 94
随着信息技术的发展和互联网的普及,大数据成为当今社会中不可忽视的重要资源。本专栏将从大数据技术的基础知识出发,介绍大数据技术的相关概念和常见应用。
Francek Chen
征途漫漫,惟有奋斗!
展开
-
【大数据安全】数据管理安全&安全分析&隐私保护
本篇文章介绍数据管理安全,安全分析和隐私保护。原创 2024-01-31 13:45:52 · 2447 阅读 · 0 评论 -
【大数据安全】大数据安全的挑战与对策&基础设施安全
大数据安全是指在大数据环境下,为了保护数据不被非法获取、篡改或破坏,确保数据的安全性、完整性和可用性的一系列措施和技术。本文介绍大数据安全的挑战与对策和基础设施安全。原创 2024-01-30 16:59:51 · 1774 阅读 · 0 评论 -
【数据可视化技术】可视化组件与Echarts示例
由于ECharts可视化基于JavaScript语言,因此掌握一定JavaScript语言的基本知识将有助于对ECharts的学习。本篇文章介绍Echarts使用及示例。原创 2024-01-25 09:38:34 · 1191 阅读 · 0 评论 -
【数据可视化技术】数据可视化概述&工具
数据可视化,是关于数据视觉表现形式的科学技术研究,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息。本篇文章介绍数据可视化的概念及数据可视化工具。原创 2024-01-24 15:23:05 · 2434 阅读 · 0 评论 -
【大数据分析与挖掘技术】Mahout分类算法
分类是使用特定信息从一个预定义的潜在回应列表中做出单一选择的过程。本篇文章介绍分类的概念,和一些在Mahout中的常见的训练分类器的算法。原创 2024-01-23 15:56:12 · 1297 阅读 · 0 评论 -
【大数据分析与挖掘技术】Mahout聚类算法
数据聚类,也称为聚类分析、分割分析或无监督分类,是一种创建数据对象集合的方法。本篇文章介绍聚类的基本概念,以及在Mahout中如何使用聚类算法对数据进行分析。原创 2024-01-21 15:19:36 · 1461 阅读 · 0 评论 -
【大数据分析与挖掘技术】Mahout推荐算法
推荐是Mahout机器学习算法的主题之一,它极大地渗透到了人们日常生活的方方面面。本篇文章首先对推荐程序的定义等概念进行描述;然后介绍Mahout中关于推荐部分的一些算法;最后示范如何利用Mahout进行数据分析,并得出对用户的推荐结果。原创 2024-01-20 11:43:30 · 2085 阅读 · 0 评论 -
【大数据分析与挖掘技术】概述
数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现上述目标。本篇文章对数据挖掘的相关概念简要介绍,着手使用Mahout进行数据分析和挖掘。原创 2024-01-19 10:21:47 · 1395 阅读 · 0 评论 -
【数据采集与预处理】数据传输工具Sqoop
Sqoop是一款开源的工具,Sqoop主要用于在Hadoop与传统的数据库间进行数据的传递。本文介绍Sqoop简介、Sqoop安装配置以及数据传输的操作过程。原创 2024-01-18 14:36:19 · 2233 阅读 · 0 评论 -
Flume实时读取本地/目录文件到HDFS
本篇文章介绍如何使用Flume实时读取本地/目录文件到HDFS上。原创 2024-01-08 16:10:21 · 1890 阅读 · 0 评论 -
【数据仓库与联机分析处理】数据仓库工具Hive
Hive是基于Hadoop的一个数据仓库工具,十分适合对数据仓库进行统计分析。本篇文章介绍Hive的安装配置以及配置Hive元数据存储到MySQL。原创 2024-01-07 22:10:55 · 2305 阅读 · 0 评论 -
【数据仓库与联机分析处理】多维数据模型
数据仓库和OLAP工具是基于多维数据模型的,该模型以数据立方体(Cube)的形式来观察和分析数据。本篇文章介绍多维数据模型。原创 2024-01-06 19:55:12 · 1628 阅读 · 0 评论 -
【数据采集与预处理】流数据采集工具Flume
Flume是一种分布式、具有高可靠和高可用性的数据采集系统,可从多个不同类型、不同来源的数据流汇集到集中式数据存储系统中。本篇文章介绍Flume架构、安装配置及其Spark应用。原创 2024-01-05 23:51:22 · 2758 阅读 · 1 评论 -
【数据仓库与联机分析处理】数据仓库
本篇文章主要介绍数据仓库。数据仓库是一个面向主题的、集成的、相对稳定的以及反映历史变化的数据集合,用于支持管理决策。原创 2024-01-03 09:44:57 · 1627 阅读 · 0 评论 -
【数据采集与预处理】数据接入工具Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。本文主要介绍Kafka以及安装配置。原创 2023-12-28 20:59:38 · 2680 阅读 · 0 评论 -
大数据存储技术(4)—— NoSQL数据库
NoSQL数据库适用于数据模型比较简单、IT系统更强的灵活性、对数据库性能要求较高且不需要高度的数据一致性等场景。本篇文章简单介绍常见的NoSQL数据库类型。原创 2023-12-20 12:49:51 · 1750 阅读 · 1 评论 -
大数据存储技术(3)—— HBase分布式数据库
HBase是Apache的Hadoop项目的子项目,是一个分布式的、面向列的开源数据库。本篇文章介绍HBase及其安装配置。原创 2023-12-16 21:54:10 · 2520 阅读 · 4 评论 -
Spark分布式内存计算框架
Spark是一种基于内存的、用以实现高效集群计算的平台。Spark有着自己的生态系统,但同时兼容HDFS、Hive等分布式存储系统,可以完美融入Hadoop的生态圈中,代替MapReduce去执行更高的分布式计算。原创 2023-12-11 15:29:26 · 2649 阅读 · 1 评论 -
MapReduce分布式编程
MapReduce是一个分布式运算程序的编程框架,用于大规模数据集的并行处理,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2023-12-09 19:30:03 · 1485 阅读 · 0 评论 -
大数据存储技术(2)—— HDFS分布式文件系统
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS就是分布式文件管理系统中的一种。原创 2023-12-07 21:43:49 · 1402 阅读 · 0 评论 -
大数据存储技术(1)—— Hadoop简介及安装配置
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文介绍Hadoop及其集群的搭建。原创 2023-12-06 22:34:18 · 2230 阅读 · 1 评论 -
大数据软件基础(3) —— 在VMware上安装Linux集群
CentOS(Community Enterprise Operating System,中文意思是社区企业操作系统)是Linux发行版之一,是免费的、开源的、可以重新分发的开源操作系统。自2004年3月以来,CentOS Linux一直是社区驱动的开源项目,旨在与RHEL在功能上兼容。本文详细讲解如何安装CentOS Linux虚拟机。原创 2023-12-05 18:14:50 · 1433 阅读 · 0 评论 -
大数据软件基础(2)—— Java、SQL
Hadoop是用Java写的,在Hadoop为主导的大数据处理技术生态圈的编程语言中,Java语言有不可撼动的地位。Hadoop生态圈的 Hive、Spark 等也仿照SQL语言提出了自己的类SQL语言,用于数据的查询和分析等。原创 2023-12-02 13:08:47 · 1280 阅读 · 0 评论 -
大数据软件基础(1)—— Linux
Linux系统核心最初是由芬兰赫尔辛基大学学生Linus Torvalds在1990年设计。后来,Linux周边程序越来越多,在不到三年的时间里,linux成为了一个功能完善,稳定可靠的操作系统。原创 2023-12-01 17:41:22 · 1215 阅读 · 0 评论 -
大数据技术概述
大数据(Big Data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决海量数据的存储和海量数据的分析计算问题。原创 2023-11-28 21:39:16 · 2876 阅读 · 1 评论