数据挖掘
文章平均质量分 82
leiline
http://www.leiline.cn/about/
展开
-
Flink SQL 在kerberos on yarn环境下提交
Flink SQL 作业在kerberos on yarn环境下提交原创 2022-09-25 14:20:10 · 1905 阅读 · 1 评论 -
机器学习与数据挖掘算法--kMeans算法
k-平均算法源于信号处理中的一种向量量化方法,现在更多作为一种聚类分析方法流行于数据挖掘领域。原创 2017-01-16 15:43:18 · 853 阅读 · 0 评论 -
Spark环境配置与学习
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。本文主要介绍spark环境配置以及基础入门学习。原创 2017-02-17 15:39:59 · 681 阅读 · 2 评论 -
统计学习算法--感知机
感知器(perceptron)1957年由Rosenblatt提出,是神经网络与支持向量机的基础。感知器是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面。原创 2017-02-15 10:23:25 · 544 阅读 · 0 评论 -
Redis学习与使用
Redis是一个远程内存数据库,它不仅性能强劲,而且还具有复制特性以及为解决问题而生的独一无二的数据模型。原创 2017-04-30 11:21:47 · 315 阅读 · 0 评论 -
Hadoop的一些基础知识
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理,以并行的方式工作,通过并行处理加快处理速度,能够处理 PB 级数据。Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发。原创 2017-03-31 15:30:40 · 4453 阅读 · 0 评论 -
Hadoop之MapReduce
MapReduce是一种流行的分布式计算框架,它被设计并用于并行计算海量数据。原创 2017-04-24 09:57:32 · 235 阅读 · 0 评论