大数据_Hadoop
翁松秀
以理论指导实践,在实践中验证理论,总结新的理论。
展开
-
Hadoop的体系结构
Hadoop的基本介绍 Hadoop是由Apache基金会开发的分布式系统基础架构,使用户能在不了解分布式底层细节的情况下,进行分布式程序的开发。充分利用分布式集群存储和计算能力来实现用户的需求。 Hadoop架构最核心的两个设计师HDFS(Hadoop Distributed File System)和MapReduce。HDFS是Hadoop的分布式文件系统,部署在低廉的硬件集群上,实现了...原创 2018-07-19 13:52:45 · 661 阅读 · 0 评论 -
Apache Parquet
Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language. Apache Parquet...翻译 2018-08-22 15:03:43 · 392 阅读 · 0 评论 -
Maven打包Java版的spark程序到jar包,本地Windows测试,上传到集群中运行
Maven打包本地spark程序到jar包,上传到集群中运行 Step1:Maven打包Jar包 win + R 打开运行窗口输入cmd打开命令行窗口,切换到程序所在目录,我的目录是 E:\code\JavaWorkspace\SparkDemo 编译程序 mvn compile 打包程序 mvn package 如果程序没有特殊情况,比如缺胳膊少腿,打包完后回看到...原创 2018-08-22 19:09:00 · 7441 阅读 · 10 评论 -
本地开发Spark,运行JavaSparkPi例子报错:A master URL must be set in your configuration
错误信息: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 18/08/21 18:39:27 INFO SparkContext: Running Spark version 1.6.0 18/08/21 18:39:28 ERROR SparkContext: Error init...原创 2018-08-21 18:54:42 · 1034 阅读 · 0 评论 -
初识大数据——大数据技术家族
作者:翁松秀 初识大数据——大数据技术家族 随着技术的不断演进以及新兴技术的不断完善,需要根据平台的数据模型和业务逻辑对平台的技术体系进行更新。为了更好地与大数据组进行某些方面的对接,以及运用大数据技术的优势,计划将平台的主要技术体系C# ,SQLServer演进为Java ,MySQL ,SparkSQL ,Redis。存储结构方面由原来的C#演进为MySQL和HDFS,业务方面以前主要由存储...原创 2019-01-11 13:48:07 · 1334 阅读 · 0 评论 -
Spark快速大数据分析
作者:翁松秀 文章目录Spark快速大数据分析一、Spark数据分析导论二、Spark下载与入门三、RDD编程四、键值对操作五、数据读取与保存六、Spark编程进阶七、在集群上运行Spark八、Spark调优与调试九、Spark SQL十、Spark Streaming十一、基于MLlib的机器学习 Spark快速大数据分析 一、Spark数据分析导论 二、Spark下载与入门 三、RDD编程 ...原创 2019-03-01 11:28:39 · 1635 阅读 · 0 评论