Big Data And AI
文章平均质量分 78
大数据为人工智能提供数据基础
人工智能为大数据提供上层支撑
大数据AI
公众号:大数据AI
展开
-
Spark2.x 入门:高斯混合模型(GMM)聚类算法
模型的训练与分析Spark的ML库提供的高斯混合模型都在org.apache.spark.ml.clustering包下,和其他的聚类方法类似,其具体实现分为两个类:用于抽象GMM的超参数并进行训练的GaussianMixture类(Estimator)和训练后的模型GaussianMixtureModel类(Transformer),在使用前,引入需要的包:import org.ap原创 2024-09-09 10:08:08 · 354 阅读 · 0 评论 -
Spark2.x 入门: KMeans 聚类算法
KMeans 是一个迭代求解的聚类算法,其属于 划分(Partitioning) 型的聚类方法,即首先创建K个划分,然后迭代地将样本从一个划分转移到另一个划分来改善最终聚类的质量。ML包下的KMeans方法位于org.apache.spark.ml.clustering包下,其过程大致如下:1.根据给定的k值,选取k个样本点作为初始划分中心;2.计算所有样本点到每一个划分中心的距离,原创 2024-09-07 10:22:30 · 1080 阅读 · 0 评论 -
Spark2.x 入门:决策树分类器
一、方法简介 决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的剪枝。原创 2024-09-06 14:18:07 · 469 阅读 · 0 评论 -
Spark2.x 入门:逻辑回归分类器
方法简介逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。示例代码我们以iris数据集(iris)为例进行分析。iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。原创 2024-09-05 09:07:36 · 552 阅读 · 1 评论 -
libsvm 数据格式简介
libsvm文件数据格式:label> index1>:value1> index2>:value2> ...其中, 是训练数据集的目标值,对于分类,它是标识某类的整数(支持多个类);对于回归,是任意实数。 是以1开始的整数,可以是不连续的;为实数,也就是我们常说的自变量。即:lable 数据集的标签,index为特征,value为特征值。例如:+1 1:0.原创 2024-09-04 09:16:03 · 310 阅读 · 0 评论 -
CDH6.3.4集成tez0.9.2
编译环境准备安装JDK[root@song ~]# tar -zxvf jdk-8u271-linux-x64.tar.gz [root@song ~]# mv jdk1.8.0_271/ /usr/local/java[root@song ~]# vim /etc/profile# set java envexport JAVA_HOME=/usr/local/javaexport PATH=$JAVA_HOME/bin:$PATH[root@song ~]# source /etc/pr原创 2021-08-24 21:27:40 · 493 阅读 · 0 评论 -
Alluxio运维
Alluxio命令alluxio fsadmin# 查看服务状态alluxio fsadmin report# 查看挂掉的服务ipalluxio fsadmin report capacity -lostalluxio getConf# 查看配置参数alluxio getConf --masterAlluxio运维实战Worker节点挂掉查看服务状态,发现有一台worker节点丢失查看丢失的节点是哪一台$ alluxio fsadmin report capacit原创 2021-08-24 21:18:54 · 191 阅读 · 0 评论 -
Alluxio与CDH组件集成
一、运行 CDH MapReduce1. 配置core-site.xml您需要将以下属性添加到中core-site.xml。只有使用HA模式的群集才需要ZooKeeper属性。同样,只有使用嵌入式日志的HA群集才需要嵌入式日志属性。<property> <name>fs.alluxio.impl</name> <value>alluxio.hadoop.FileSystem</value></property><原创 2021-08-24 21:15:54 · 279 阅读 · 0 评论 -
Alluxio源码编译适配CDH
一、源码编译确保你安装了Java(JDK 8或更高版本)以及Maven3.3.9及以上[root@song build]# git clone https://github.com/Alluxio/alluxio.git[root@song build]# cd alluxio/[root@song alluxio]# git checkout v2.4.1-1[root@song alluxio]# mvn clean install -Phadoop-3 -Dhadoop.version=原创 2021-08-14 11:18:58 · 296 阅读 · 0 评论 -
Alluxio简介
Alluxio简介Alluxio是什么Alluxio(之前名为 Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。 它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。在大数据生态系统中,Alluxio 介于计算框架(如 Apache Spark,Apache MapReduce,Apache Flink)和现有的存储原创 2021-08-14 11:01:14 · 2384 阅读 · 0 评论 -
pssh 批量运维工具
一、简介pssh全称是parallel-ssh,是一个Python编写的可以并发在多台服务器上批量执行命令的工具,它支持文件并行复制、远程并行执行命令、杀掉远程主机上的进程等。前提:使用pssh工具包,必须保证本地主机和管理的远程主机之间的单向信任,也就是要在本地主机和所有远程服务器上配置密钥认证访问。项目地址:https://code.google.com/p/parallel-ssh/pssh 包安装5个实用程序:parallel-ssh、parallel-scp、parallel-rs原创 2020-11-13 17:18:06 · 423 阅读 · 1 评论 -
SSH 原理与运用(二):远程操作与端口转发
一、远程操作SSH不仅可以用于远程主机登录,还可以直接在远程主机上执行操作。$ ssh user@host 'mkdir -p .ssh && cat >> .ssh/authorized_keys' < ~/.ssh/id_rsa.pub**单引号中间的部分,表示在远程主机上执行的操作;**后面的输入重定向,表示数据通过SSH传向远程主机。这就是说,SSH可以在用户和远程主机之间,建立命令和数据的传输通道,因此很多事情都可以通过SSH来完成。下面看几个例子。.转载 2020-11-13 17:14:12 · 309 阅读 · 0 评论 -
SSH 原理与运用(一):远程登录
SSH是每一台Linux电脑的标准配置。随着Linux设备从电脑逐渐扩展到手机、外设和家用电器,SSH的使用范围也越来越广。不仅程序员离不开它,很多普通用户也每天使用。SSH具备多种功能,可以用于很多场合。有些事情,没有它就是办不成。本文是我的学习笔记,总结和解释了SSH的常见用法,希望对大家有用。虽然本文内容只涉及初级应用,较为简单,但是需要读者具备最基本的"Shell知识"和了解"公钥加密"的概念。如果你对它们不熟悉,我推荐先阅读《UNIX / Linux 初学者教程》和《数字签名是什么?》。.转载 2020-11-13 17:12:18 · 635 阅读 · 0 评论 -
LeNet-5 – A Classic CNN Architecture
LeNet 诞生于 1994 年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展。自从 1988 年开始,在许多次成功的迭代后,这项由 Yann LeCun 完成的开拓性成果被命名为 LeNet5。LeNet-5 出自论文 Gradient-Based Learning Applied to Document Recognition,是一种用于手写体字符识别的非常高效的卷积神经网络。Le...转载 2020-04-14 00:11:37 · 390 阅读 · 0 评论 -
LSTM(长短期记忆网络)
在上篇文章一文看尽RNN(循环神经网络)中,我们对RNN模型做了总结。由于RNN也有梯度消失的问题,因此很难处理长序列的数据,大牛们对RNN做了改进,得到了RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,因此在工业界得到了广泛的应用。下面我们就对LSTM模型做一个总结。Long Short Term Memory networks(以下简称L...原创 2020-03-20 20:06:05 · 1696 阅读 · 0 评论 -
一文看尽RNN(循环神经网络)
循环神经网络简介BP算法,CNN之后,为什么还有RNN?细想BP算法,CNN(卷积神经网络)我们会发现, 他们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数字等单个物体的识别具有较好的效果. 但是, 对于一些与时间先后有关的, 比如视频的下一时刻的预测,文档前后文内容的预测等, 这些算法的表现就不尽如人意了.因此, RNN就应运而生了。什么是 RNN?...原创 2020-03-13 18:17:27 · 3328 阅读 · 0 评论 -
Spark ML机器学习库评估指标示例
本文主要对 Spark ML库下模型评估指标的讲解,以下代码均以Jupyter Notebook进行讲解,Spark版本为2.4.5。模型评估指标位于包org.apache.spark.ml.evaluation下。模型评估指标是指测试集的评估指标,而不是训练集的评估指标1、回归评估指标RegressionEvaluatorEvaluator for regression, whic...原创 2020-03-03 21:42:15 · 1504 阅读 · 0 评论 -
监督学习算法模型评估实例(sklearn版)
sklearn机器学习包中的模型评估指标都在包sklearn.metrics下;链接地址:https://scikit-learn.org/stable/modules/classes.html?highlight=metrics#module-sklearn.metrics这里我们选择几个常用的指标进行展示,sklearn的版本为0.22.1。混淆矩阵(confusion_matrix)...原创 2020-03-03 11:51:37 · 587 阅读 · 0 评论 -
监督学习算法模型评估
在分类模型评判的指标中,常见的方法有如下三种:混淆矩阵(也称误差矩阵,Confusion Matrix)ROC曲线AUC值在回归模型评价指标中,常用的方法有如下几种:MSERMSEMAER2混淆矩阵(Confusion matrix)在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。混淆矩阵的定义混淆矩阵是ROC曲...原创 2020-03-03 11:44:21 · 2238 阅读 · 0 评论 -
梯度下降法
梯度下降法(Gradient Descent,GD)是一种常见的一阶(first-order)优化方法,是求解无约束优化问题最简单、最经典的方法之一。,在最优化、统计学以及机器学习等领域有着广泛的应用。所谓的一阶方法就是仅使用目标函数的一阶导数,不利用其高阶导数。那什么是无约束优化问题呢?举个例子,在一元函数法f(x)f(x)f(x)的图像中,求无约束最优化问题,即不对定义域或值域做任何限制的...原创 2020-03-01 12:13:39 · 490 阅读 · 0 评论 -
打造 Win10 终极开发环境
当我们在 Windows 平台上进行程序开发的时候,会遇到各种各样让人讨厌的问题,有时候还必须转到 Linux 环境下进行开发。然而,通过本文你将可以解决你在 Windows 平台上开发遇到的所有问题。1、Chocolate Package Manager对于开发人员而言,搭建开发环境是所有开发环节中的第一步,然而在 Windows 环境下,各种安装工具,软件版本五花八门,而且容易下载到病毒软...原创 2020-02-22 18:05:07 · 3051 阅读 · 0 评论 -
CM6.3 High Availability
HDFS High AvailabilityYARN High AvailabilityHBase High AvailabilityMost aspects of HBase are highly available in a standard configuration. A cluster typically consists of one Maste...原创 2020-02-22 12:53:16 · 963 阅读 · 0 评论 -
CentOS7 Cloudera Manager6 完全离线安装 CDH6 集群
本文是在CentOS7.4 下进行CDH6集群的完全离线部署。CDH5集群与CDH6集群的部署区别比较大。说明:本文内容所有操作都是在root用户下进行的。文件下载首先一些安装CDH6集群的必须文件要先在外网环境先下载好。Cloudera Manager 6.3.0CM6 RPM:https://archive.cloudera.com/cm6/6.3.0/redhat7/yum/RPM...原创 2020-02-22 12:49:16 · 1931 阅读 · 0 评论 -
Ambari HDP 下 SPARK2 与 Phoenix 整合
1、环境说明操作系统CentOS Linux release 7.4.1708 (Core)Ambari2.6.xHDP2.6.3.0Spark2.xPhoenix4.10.0-HBase-1.22、条件HBase 安装完成Phoenix 已经启用,Ambari界面如下所示:Spark 2安装完成3、Spark2 与 ...原创 2020-02-20 17:49:25 · 1351 阅读 · 0 评论 -
IDEA设置
设置鼠标滑轮修改字体大小然后按住 Ctrl + 滑轮,就可改变字体大小设置自动导包/删包功能显示代码行号和方法间分隔符设置鼠标悬浮提示设置忽略大小写提示设置文件多行显示设置字体、大小、行间距设置编码区和控制台字体设置单行、多行、文档注释字体颜色设置工程项目编码设置单个文件编码设置自动编译...原创 2020-02-19 09:15:15 · 213 阅读 · 0 评论 -
IDEA下meavn开发scala程序
IDEA下meavn开发scala程序,一般有两种方式:第一种:安装好Scala, 通过IDEA Scala插件进行开发第二种:使用maven插件包进行开发一、通过IDEA Scala插件开发1. 安装Scala插件2. 创建 Maven 工程,Add Frameworks Support(Scala)2.1 创建项目名称为scala-plugin的maven项目2...原创 2020-01-14 18:47:57 · 181 阅读 · 0 评论 -
HBase简介与表结构
文章目录HBase是什么列式存储与行式存储HBase适用场景HBase表结构HBase是什么HBase,即Hadoop DataBase,是Hadoop的一个子项目,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是Google Bigtable的开源实现。HBase在Hadoop生态中的位置如下 :使用HDFS作为其分布式存储系统,提供了高可靠的底层存储支持使用MapRedu...原创 2019-10-17 17:25:40 · 934 阅读 · 0 评论