![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
大数据开发知识实战
noobiee
一般路过的普通学生
展开
-
云计算(Cloud Computing)
结合起来交付给用户使用。企业的运营管理、决策分析都将基于云平台展开,人们将会过起一种“云上的日子”。它是一个系统、总体的概念、业务与技术融合的一体化概念,这一点对认识云很重要。从技术的角度来说,是将企业所有的服务器、存储等基础设施以及网络整合到统一的云平台上。在“云的世界”里,将。早期的云计算就是虚拟化主机上的分布式计算,现阶段的云计算,已经不单单是一种分布式计算,而是。等计算机技术混合演进并跃升的结果。云计算不是一种全新的网络技术,而是一种全新的网络概念。云计算是一种颠覆性的。原创 2023-05-02 10:17:53 · 2367 阅读 · 0 评论 -
数据仓库(DW)、数据湖、数据中台的关系
一句话说明:数据中台是一套体系,既不是工具又不是存储,它可以包含数据湖和数据仓库。数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。原创 2022-12-12 17:37:22 · 762 阅读 · 0 评论 -
加密算法与大数据安全
对称加密方法使用单个加密密钥来加密和解密数据。对这两个操作使用单个键使其成为一个简单的过程,因此称为“对称”。对称加密的最突出特征是其过程的简单性。这种加密的这种简单性在于使用单个密钥进行加密和解密。AES代表“高级加密系统”,是最广泛使用的加密算法之一,并且是DES算法的替代方法。AES也称为Rijndael,在2001年经NIST批准后成为一种加密标准。与DES不同,AES是一组分组密码,由不同密钥长度和分组大小的密码组成。AES致力于替代和置换方法。原创 2022-10-24 17:55:23 · 959 阅读 · 0 评论 -
PySpark入门
1,通过pyspark进入pyspark单机交互式环境。这种方式一般用来测试代码。也可以指定jupyter或者ipython为交互环境。2,通过spark-submit提交Spark任务到集群运行。这种方式可以提交Python脚本或者Jar包到集群上让成百上千个机器运行任务。这也是工业界生产中通常使用spark的方式。3,通过zepplin notebook交互式执行。zepplin是jupyter notebook的apache对应产品。4, Python安装findspark和pyspark库原创 2022-10-13 12:13:09 · 8129 阅读 · 0 评论 -
Impala(分布式文件系统sql)
Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性省掉了MapReduce作业启动的开销。MapReduce启动task的速度很慢(默认每个心跳间隔是3秒钟),Impala直接通过相应的服务进程来进行作业调度,速度快了很多。Impala完全抛弃了MapReduce这个不太适合做SQL查询的范式,而是像Dremel一样借鉴了MPP并行数据库的思想另起炉灶,因此可做更多的查询优Hue(Hadoop user experience)界面。ODBC / JDBC驱动程序。原创 2022-08-25 10:52:14 · 726 阅读 · 0 评论 -
Java API操作 HBase
导入数据问题Rowkey问题Java API操作HBaseRef:HBase Java API之TableDescriptorBuilder,ColumnDescriptorBuilder创建表、列族_追梦*小生的博客-CSDN博客JAVA连接HBase客户端及HBase写入数据和读取数据原理解析_菜鸟周星星的博客-CSDN博客浅谈HBase的数据分布 - 知乎Hbase API以及java如何操作Hbase的说明_Uncle_Mo的博客-CSDN博客_hbase j原创 2022-04-10 11:58:23 · 4251 阅读 · 2 评论 -
Hadoop / HDFS / Spark / HBase知识点 + 区别
前言Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。尽管Hadoop具有许多重要的功能和数据处理优势,但它仍存在一个主要缺点。Hadoop的本地批处理引擎MapReduce不如Spark快。这就是Spark超越Hadoop的优势。除此之外,当今大多数大数据项目都需要批处理工作负载以及实时数据处理。Hadoo转载 2022-03-23 22:00:31 · 4402 阅读 · 0 评论 -
Spark with Scala
从磁盘(File)中创建RDD - textFile查看RDD内容myRDD.collect().foreach(println)myRDD.take(n).foreach(println) //取n个问题汇总 NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.metric() 项目可能会引入大量的依赖包,依赖包之间可能就会发生冲突...原创 2022-04-04 11:20:35 · 2089 阅读 · 0 评论 -
CentOS 7配置Hadoop3.X环境 附部分原理说明
需要工具:VMware, jdk, centOS7, hadoopⅠ.虚拟机安装centOS官网The CentOS ProjectVMware自行下载centOS安装建议选用以下安装方式:图形化界面更直观 后续方便VMtools等工具使用 (复制粘贴文本 等主机交互命令)桌面模式下设置root直接登录:CentOS7自动以root身份登陆gnome桌面_DanylZhang的博客-CSDN博客_gnome root登录设置和主机互传文件 (VMt...原创 2022-03-15 19:07:59 · 6730 阅读 · 0 评论