- 博客(17)
- 资源 (5)
- 收藏
- 关注
转载 hadoop2.6.4完全分布式集群安装(一)实现基本集群环境
致谢博主:jd29323 http://blog.csdn.net/fd_mas/article/details/51586591目录(?)[+]1 总体说明笔记本:i5第六代,16G内存,256G固态硬盘使用VirtualBox 5.0.22建立3台虚拟机,实现完全分布式安装。建立纯Hadoop的集群环境,实现所有hadoop集群的各种基
2016-12-28 00:56:20 385
转载 Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
本文将通过一个手机短信分类预测的案例向读者介绍文本分析的基本步骤和方法,实现上将使用 Spark ML 的多层感知器分类器及 Word2Vec 文本向量化工具,通过本文的阅读,读者会学习到使用 Spark ML 进行文本分析处理的基本方法和相关工具,为进一步深入研究和学习打下基础。
2016-12-25 21:25:28 5164
转载 Spark 实战,第 5 部分: 使用 ML Pipeline 构建机器学习工作流
本文将通过一个分类预测的机器学习问题向读者展示如何使用 Spark 新的 ML Pipeline 库构建机器学习的工作流。通过本文的阅读,读者将会了解到 ML Pipeline 与 MLlib 相比在设计上的独到和使用上的不同之处,并且会深入理解 ML Pipeline 的基本概念和工作方式,为进一步学习和深入研究打下良好的基础。
2016-12-25 21:24:25 1067
转载 Spark 实战,第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析
MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。
2016-12-25 21:23:16 1874
转载 Spark 实战,第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析
本文将通过两个例子向读者展示如何使用 Spark SQL/DataFrame API 编写应用程序来对结构化的大数据进行统计分析,并且还会通过分析程序运行日志以及利用 Spark Web Console 向读者介绍 Spark 应用程序运行的基本过程和原理。通过本文的阅读,读者将会对 Spark SQL 模块有较为深入的认识和理解。
2016-12-25 21:21:58 1399
转载 Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。
2016-12-25 21:20:09 491
转载 Spark 实战,第 1 部分: 使用 Scala 语言开发 Spark 应用程序
引言在当前这个信息时代里,大数据所蕴含的价值已经被绝大多数的企业所认知。在 IT 的世界里,往往都是需求驱动技术的发展和革新。Hadoop 在这个大背景下应运而生,它给我们提供了一个存储和处理大数据的良好的解决方案,短短的几年时间里,它已无处不在,事实上它已经成了大数据技术的代名词。然而在人们越来越多的使用 Hadoop 提供的 MapReduce 框架处理大数据的时候,却发现它存在许多天
2016-12-25 21:18:00 947
转载 Hive总结(七)Hive四种数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:
2016-12-24 22:03:40 201
转载 HBase总结(十二)Java API 与HBase交互实例
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org
2016-12-24 22:01:48 182
转载 HBase总结(十三)HBase Shell 常用命令及例子
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'
2016-12-24 21:59:41 294
转载 远程连接Linux (Ubuntu配置SSH服务) 端口22
安装OpenSSH Ubuntu缺省没有安装SSH Server,使用以下命令安装: sudo apt-get install openssh-server openssh-client 不过Ubuntu缺省已经安装了ssh client。 配置完成后重起: sudo /etc/init.d/ssh restart windows
2016-12-22 22:52:08 416
转载 Spark入门(Python版)
Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS;一
2016-12-18 12:53:21 605
转载 配置hadoop HIVE元数据保存在mysql中
先确保已经成功安装了HIVE和MYSQL在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式刚安装好hive,conf下是没有hive-site.xml文件的,需要复制 hive-default.xml为hive-site.xml。然后再进行修改。 javax.jdo.option.ConnectionURL
2016-12-18 10:59:22 1463
转载 HBase安装配置之伪分布式模式
HBase安装配置之伪分布式模式2016-11-25 22:28 10989人阅读 评论(1) 收藏 举报 分类:hbase-hadoop(8) HBase安装模式有三种:单机模式、分布式(伪分布式和完全分布式)。本教程介绍了HBase的伪分布式模式安装配置的过程,伪分布式模式是把进程运行在一台机器上,但不是同一个JVM(单机模式),分布式模式的
2016-12-04 14:40:24 470
转载 分类模型的评价之AUC
关于AUC,想写的东西有点多,本来计划分3篇文章来写完,但是微信公众平台每天只能发一篇文章,等不及了,所以先写一篇,尽量把想写的都写出来,以后有需要再补充。这篇文章分三部分,第一部分是对AUC的基本介绍,包括AUC的定义,解释,以及算法和代码,第二部分用逻辑回归作为例子来说明如何通过直接优化AUC来训练,第三部分,内容完全由@李大猫原创——如何根据auc值来计算真正的类别,换句话说,就是对
2016-12-01 19:11:45 8057 3
转载 准确率,召回率,F1 值、ROC,AUC、mse,mape评价指标
在机器学习、数据挖掘领域,工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。1.准确率P、召回率R、F1 值定义 准确率(Precision):P=TP/(TP+FP)。通俗地讲,就是预测正确的
2016-12-01 19:02:19 787
转载 支持向量机SVM原理
版权声明:如需转载,请注明出处http://blog.csdn.net/a8198252941.关键概念及学习目标线性&非线性分类问题&核技巧 非线性分类问题是指通过利用非线性模型才能很好地进行分类的问题。如上图左侧,我们无法用直线(线性模型)将正负例正确分开,但可以用一条椭圆曲线(非线性模型)将他们正确分开。此时,我们可以进行一个非线性变换。核技巧应用
2016-12-01 16:36:19 416 1
快学Scala(中文完整版)
2018-01-19
推荐系统实战
2018-01-19
Spark大数据处理
2018-01-18
算法导论(第三版)
2016-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人