大数据
文章平均质量分 70
cynthia_file
缓慢而坚定地做自己能做的事
展开
-
hive部署
下载mysql jdbc 包。原创 2023-08-29 16:23:23 · 530 阅读 · 0 评论 -
hadoop 搭建
hadoop环境搭建原创 2023-03-09 17:54:20 · 271 阅读 · 0 评论 -
Hadoop组件
Hadoop组件 hdfs文件系统原创 2023-03-09 17:58:49 · 46 阅读 · 0 评论 -
HDFS原理
hdfs原理原创 2023-03-09 17:57:13 · 70 阅读 · 1 评论 -
hdfs操作
hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]… | OCTALMODE> PATH…][-chown [-R] [OWNER][:[GROUP]] PATH…][-copyFromLocal [-f] [-p] [-l] [-d] … ][-copyToLocal [-f]原创 2023-08-29 12:01:47 · 131 阅读 · 0 评论 -
spark
可以部署在Yarn之上的 内存计算框架可以满足批处理 Spark,实时交互查询 spark SQL,流处理Spark streaming,图计算 GraphX,机器学习 MLlib。原创 2023-03-24 15:39:26 · 124 阅读 · 0 评论 -
spark 部署
/bin/spark-shell --master local[*] 服务器线程数 等效 ./bin/spark-shell。独立集群模式:hadoop 是伪分布式布置的,spark就只能是standAlone模式。./bin/spark-shell --master local 单线程。spark://HOST:PORT 默认7077。yarn-cluster模式 生产模式使用。yarn-client 模式 调试时用。Spark的Driver节点从集群中选择。客户端可以获得查看信息。原创 2023-08-29 12:01:28 · 135 阅读 · 0 评论 -
scala函数式编程
case(k,v) unapply+(k,v)是元组不用换指定对象。def 函数名(参数:类型[,参数:类型]):返回类型={函数体}函数值 (value)=>{value+=1}用来表示一个参数的一次使用,,不能用两次。中缀表示法 & 匿名函数 & 高阶函数。匿名函数(Lambda 表达式)容器映射 map&flatMap。类型:(参数类型)=>返回类型。函数值 (参数)=>{函数体}函数类型 (Int)=>Int。容器遍历 foreach。容器过滤 filter。flatMap一对多。原创 2023-04-23 14:43:38 · 454 阅读 · 0 评论 -
scala之基础&面向对象
scala 既是面向对象 也是函数式编程从Java 发展而来,依赖JVM环境。原创 2023-04-23 10:17:50 · 512 阅读 · 0 评论 -
MapReduce原理(一)
MapReduce 编程模型使用者只需要对Map()和Reduce()进行编程实例解释:文件词频统计hdfs处理 文件为数据块框架将hdfs处理的数据块处理为<key(位置),value(每行文本)>的模式【eg.<0,Hello World> <12, Bye World>】map:一个block的过程:1.<key(位置),value(每行文本)>输入到map函数中【eg.<0,Hello World> <1原创 2021-02-03 16:00:27 · 92 阅读 · 0 评论 -
MapReduce原理(二)
MapReduce 作为 分布式计算框架(在分布式集群中)优:可靠、容错、海量数据处理缺:慢(分成的map太多?)任务如何下发到各集群:大数据进程:启动MapReduce程序的主入口(用户提交的MapReduce任务),内包含实际Map任务、实际Reduce任务,输入输出文件位置。jobtracker:根据处理数据量,命令taskTracker启动相应数量Map和Reduce进程任务,管理整个作业生命周期内的任务调度与监控,全局唯一。负责指挥的就是它。tasktracker:与DataNode原创 2021-02-03 17:42:45 · 109 阅读 · 0 评论