
大数据
文章平均质量分 85
怡情灬XiaoBai
这个作者很懒,什么都没留下…
展开
-
数据治理学习笔记(二):在数仓建模过程中,数据治理要怎么做
数仓过程中,如何进行数据治理工作原创 2024-09-02 19:29:33 · 925 阅读 · 0 评论 -
数据治理学习笔记(一):数据治理是什么,要做什么
前言:经常在各种数据工作的文章中看到这个词,看词语意思就是要把数据管理好。作为数据基础支撑工作,其重要性也是可以想象的,平时工作中,有数据问题,一圈查下来就是一条记录的质量问题,更坑的是可能会多次都是因为同一种问题。这里有原始业务代码的bug,也有数据没有做好监管的问题。这也是很多时候的痛点。不仅是传统提供数据仓库、BI、主数据管理、元数据管理、数据集成等数据服务的软件供应商在说数据治理,“BATJ”等互联网公司,大型国企、央企也都在谈数据治理,很多企业都将数据治理作为数智化战略的一项必要举措,列入了企原创 2022-01-19 10:30:04 · 18599 阅读 · 1 评论 -
Kafka常用的命令行值指令
1、hadoop集群启动之后,启动Kafkakafka-server-start.sh /opt/soft/kafka211/config/server.properties开启Kafka 后面是server.properties的路径,不是在当前目录最后写全路径。2、建立Kafka topickafka-topics.sh --create --zookeeper hosts:2181 --replication-factor 1 --partitions 1 --topic mydemo原创 2020-12-09 19:15:32 · 280 阅读 · 0 评论 -
Sqoop的一些基本操作
目录Sqoop功能Sqoop架构数据导入Hive流程数据导入HDFS原理数据从HDFS导出原理Sqoop导数据语法mysql中导入表的指定列到HDFSmysql中增量导入数据到HDFS导入数据到Hive中导入数据到Hive分区中导入数据到HBase中HDFS向mysql中导出数据导入数据到job导数据报错处理前面已经给大家讲过sqoop的安装,如果还没有安装的可以再去看看详细安装流程:sqoop详细安装与环境配置sqoop的作用前面也说过主要用于做数据迁移,它用于从关系数据库(如MySQL,Oracl转载 2020-11-12 10:27:19 · 1550 阅读 · 0 评论 -
ALS算法介绍(协同过滤算法介绍)
目录一、ALS算法概括二、ALS算法原理及运用(1)、协同过滤(2)、ALS算法工作原理(3)、ALS算法输入的参数三、代码实现一、ALS算法概括1、ALS算法用来补全用户评分矩阵。由于用户评分矩阵比较稀疏,将用户评分矩阵进行分解,变成V和U的乘积。通过求得V和U两个小的矩阵来补全用户评分矩阵。2、ALS算法使用交替最小二乘法来进行求解3、ALS分为显示反馈和隐式反馈两种。显示反馈是指用户有明确的评分。对于商品推荐来说,大部分是通过用户的行为,获取隐式反馈的评分。隐式反馈评分矩阵需要进行处理,如果有原创 2020-10-22 09:51:37 · 24898 阅读 · 1 评论 -
Spark RDD
这里写目录标题一、简介1、并行化集合2、外部数据集二、RDD运行过程1、特性2、工作过程三、RDD操作1、动作算子2、转换算子四、RDD持久化五、RDD共享变量一、简介RDD(弹性分布式数据集)是Spark的核心抽象。它是一组元素,在集群的节点之间进行分区,以便我们可以对其执行各种并行操作。有两种方法可以用来创建RDD:并行化驱动程序中的现有数据引用外部存储系统中的数据集,例如:共享文件系统,HDFS,HBase或提供Hadoop InputFormat的数据源。1、并行化集合并行化集合原创 2020-10-19 11:18:34 · 389 阅读 · 0 评论 -
K-means算法分析,案例(大数据的用户分组召回)
目录一、K-means算法1、简介2、基本思想及工作原理基本思想工作原理3、简单案例分析4、优缺点二、Spark ml实现K-means算法1、相关参数和构造方法2、MLlib 中的 k-means 训练函数3、MLlib 中的 k-means 的预测函数三、Spark ml实现k-means实例1、数据库连接的方法2、自定义函数3、数据清洗4、业务处理5、绘图分析质心点数重写绘图窗口方法分析质心数6、分组召回一、K-means算法1、简介k-means 算法是一种基于划分的聚类算法,它以 k 为参数原创 2020-10-16 10:31:44 · 3709 阅读 · 0 评论 -
Spark SQL原理及常用方法详解
Spark SQL一、Spark SQL基础知识1、Spark SQL简介(1)简单介绍(2)Datasets & DataFrames(3)Spark SQL架构(4)Spark SQL的特点二、入门案例1、案例代码2、SparkSession3、代码分析(1)创建spark Session(2)创建Dataset样例类创建Tuple创建JSON创建RDD创建(3)创建DataframeJson创建样例类创建Tuple创建RDD创建三、SQL操作(常用的操作方法)printSchema()show原创 2020-10-15 10:52:37 · 7287 阅读 · 0 评论 -
转载(RDD转换算子大全)
RDD 中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给 Driver 的动作时,这些转换才会真正运行。这种设计让 Spark 更加有效率地运行。常用的Transformationmap,filter,flatMap,mapPartitions,mapPartitonsWithIndex,sampl...转载 2020-09-23 14:06:57 · 494 阅读 · 0 评论 -
RDD算子大全,动作算子(active,non-lazy),装换算子(transformation,lazy)
动作算子原创 2020-09-23 14:02:17 · 1590 阅读 · 0 评论 -
Spark基础知识(新手小白必备)
Spark1、Spark简介Apache Spark的功能Spark使用1、Spark简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与原创 2020-09-21 17:47:08 · 1515 阅读 · 0 评论 -
Scala OOP常用知识介绍(类(class) 抽象类(abstract class) 单例对象(object) 特质(trait) 样例类(case class))
Scala OOP1、类定义类成员访问修饰符类的定义2、抽象类3、单例对象(object)4、伴生5、特质(trait)**混入特质(mixin)****动态混入特质**6、内部类7、样例类(case class)8、泛型类9、包与包对象1、类定义(1).类通过class关键字定义(2).类通过new关键字创建实例(3).类拥有成员变量和方法(4).类的成员默认为public,也支持private、protected(5).类中无法定义静态成员变量和方法(6).类无需明确定义构造方法,通过构原创 2020-09-17 16:42:41 · 1012 阅读 · 0 评论 -
Scala中函数的常见问题(Lambda表达式,匿名函数,高阶函数,函数嵌套,柯里化(Currying),隐式函数)
Scala函数1、Scala函数简介2、函数的声明与定义(1)函数声明(2)函数定义(3)调用函数(4)参数操作命名参数参数缺省值(5)参数传递传值调用(call-by-value)传名调用(call-by-name)3、Lambda表达式4、内置的四大函数式接口5、匿名函数6、高阶函数7、函数嵌套7、柯里化(Currying)8、隐式函数(1)隐式参数(2)隐式函数(3)隐式类1、Scala函数简介(1)函数是一组执行的语句。您可以将代码按功能分成一个个单独的函数。 如何在不同函数之间划分你的代码取决原创 2020-09-14 15:25:53 · 1274 阅读 · 0 评论 -
Scala集合函数方法大全(数组常用方法的详细解析)
++:deepheadminscantoIndexedSeq+:diffheadOptionminByscanLefttoIterable /:distinctindexOfmkStringscanRighttoIterator :+dropindexOfSlicenonEmptysegmentLengthtoList:\dropRight indexWhereorElseseqtoMapaddStringdropWhi...原创 2020-09-09 17:46:28 · 5248 阅读 · 0 评论 -
Scala基础知识(小白必备)
ScalaScala概括Scala 简介Scala的特点Scala和java的比较Scala基础语法Scala的关键词Scala 数据类型Scala概括Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。Scala 简介Scala编程语言抓住了很多开原创 2020-09-07 17:11:31 · 733 阅读 · 0 评论 -
Hbase 详细介绍以及简单的Hbase命令操作(入门必备)
Hbase1、Hbase简介1)基础介绍2)Hbase特点2、Hbase体系结构1、Hbase简介1)基础介绍HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。HBase是Google Bigtable的开源实现,但是也有很多不同之处。比如:GoogleBigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigta原创 2020-09-03 16:46:41 · 1317 阅读 · 0 评论 -
Hive优化的重点——数据倾斜
数据倾斜数据倾斜优化数据倾斜的含义数据倾斜的主要原因数据倾斜的主要解决方法1、调整Map数(1)小文件合并(2).复杂文件增加 Map 数2、调整 Reduce数(1)调整 reduce 个数方法一(2)调整 reduce 个数方法二3、根据出现的场景做调整(1)group by 产生数据倾斜数据倾斜的含义数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行 HiveQL 或者运行 MapReduce 作业时候,如果遇到一直卡在 map100%,reduce99%一般就 是遇到了数据倾斜的问原创 2020-08-31 16:49:52 · 1028 阅读 · 0 评论 -
Hive函数词典
Hive函数词典AA函数名函数介绍函数案例运行结果abs ceil 求其不小于小给定实数的最小整数如:ceil(6) = ceil(6.1)= ceil(6.9) = 6 SELECT ceil(-0.1) FROM src LIMIT 1; 0 ...原创 2020-08-28 14:20:20 · 1701 阅读 · 0 评论 -
初识Hive——hive安装配置以及简单介绍
这里写目录标题1.Hive简介(1)直观的理解(2)Hive的特点2.Hive的安装与配置(1)安装(2)配置1)配置前的准备2)配置hive-site.xml3)将mysql-java驱动拷贝到 hive110/lib中4)配置环境变量5)初始化hive6)启动hive访问hiveserver7)启动hiveserver28)登入beeline客户端9)取消繁琐的日志信息1.Hive简介(1)直观的理解Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类S原创 2020-08-26 19:49:46 · 587 阅读 · 0 评论 -
Java操作elasticsearch集群(实例)
Java操作elasticsearch集群1.创建java工程(1)工程的创建(2)配置文件的配置(3)基本结构的创建2.操作实例(1)创建实体类对象(2)创建model层(3)编辑控制层(3)前端编辑index.js的编写index.html的编写(4)结果展示1.创建java工程(1)工程的创建首先用idea创建Spring initializr工程,完成基本的数据创建。完成相关的工程建立操作(2)配置文件的配置在该文件下配置以下信息server: port: 8085 #端口号s原创 2020-08-24 19:43:08 · 1748 阅读 · 0 评论 -
Hadoop集群配置详细操作
Hadoop集群配置1.修改hadoop文件的目录权限2.配置hadoop文件下的JDK3.配置hadoop fs文件系统4.hadoop replicas 备份5.hadoop mapreduce 计算框架配置6.hadoop yarn 管理调度的配置7.配置集群的主机名8.配置hadoop 环境变量9.hadoop 格式化 HDFS(1).格式化 HDFS(2).多次格式化会出现从节点jps命令下的DataNode找不到10.配置hadoop-native库11.配置从机上的hadoop12.启动 ha原创 2020-08-20 19:22:24 · 1311 阅读 · 0 评论 -
Hadoop基本知识
Hadoop介绍hadoop之前,要简单介绍一下hadoop的应用领域——大数据1.大数据(big data)(1)概念①大数据是IT行业的的术语,是指无法在一定实际内通过常规软件进行抓取,管理和处理的数据,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(2)特性数量大 Volume<:数据的大小决定所考虑的数据的价值和潜在的信息增长块 Velocity:指获得数据的速度种类多 Variety:数据类型的多样性价密低 Valu原创 2020-08-18 20:03:51 · 1146 阅读 · 0 评论 -
Elasticsearch安装与配置
1、解压文件网上找到 Elasticsearch的相关安装文件,然后在虚拟机中建立想要安装的位置,通过命令来解压到指定的文件位置tar -zxvf elasticsearch-6.2.2.tar.gz -C /opt/bigdata/elk/为了方便起见,可以到文件所在位置将该文件改名mv elasticsearch-6.2.2.tar.gz es6221、配置文件(1)配置集群到指定目录下修改配置vi /opt/bigdata/elk/es622/config/elasticsearc原创 2020-08-14 10:59:58 · 156 阅读 · 0 评论