2016年12月_AISeekOnline

12月 09月

转载 hadoop2.6.4完全分布式集群安装（一）实现基本集群环境

致谢博主：jd29323 http://blog.csdn.net/fd_mas/article/details/51586591目录(?)[+]1 总体说明笔记本：i5第六代，16G内存，256G固态硬盘使用VirtualBox 5.0.22建立3台虚拟机，实现完全分布式安装。建立纯Hadoop的集群环境，实现所有hadoop集群的各种基

2016-12-28 00:56:20 385

转载 Spark 实战，第 6 部分: 基于 Spark ML 的文本分类

本文将通过一个手机短信分类预测的案例向读者介绍文本分析的基本步骤和方法，实现上将使用 Spark ML 的多层感知器分类器及 Word2Vec 文本向量化工具，通过本文的阅读，读者会学习到使用 Spark ML 进行文本分析处理的基本方法和相关工具，为进一步深入研究和学习打下基础。

2016-12-25 21:25:28 5164

转载 Spark 实战，第 5 部分: 使用 ML Pipeline 构建机器学习工作流

本文将通过一个分类预测的机器学习问题向读者展示如何使用 Spark 新的 ML Pipeline 库构建机器学习的工作流。通过本文的阅读，读者将会了解到 ML Pipeline 与 MLlib 相比在设计上的独到和使用上的不同之处，并且会深入理解 ML Pipeline 的基本概念和工作方式，为进一步学习和深入研究打下良好的基础。

2016-12-25 21:24:25 1067

转载 Spark 实战，第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析

MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础，向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析，我们还将通过分析源码，进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。

2016-12-25 21:23:16 1874

转载 Spark 实战，第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析

本文将通过两个例子向读者展示如何使用 Spark SQL/DataFrame API 编写应用程序来对结构化的大数据进行统计分析，并且还会通过分析程序运行日志以及利用 Spark Web Console 向读者介绍 Spark 应用程序运行的基本过程和原理。通过本文的阅读，读者将会对 Spark SQL 模块有较为深入的认识和理解。

2016-12-25 21:21:58 1399

转载 Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统

本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生，数据读取，数据处理，结果存储等数据系统处理的基本环节，也会提出一些开放式的问题，供读者一起讨论。

2016-12-25 21:20:09 491

转载 Spark 实战，第 1 部分: 使用 Scala 语言开发 Spark 应用程序

引言在当前这个信息时代里，大数据所蕴含的价值已经被绝大多数的企业所认知。在 IT 的世界里，往往都是需求驱动技术的发展和革新。Hadoop 在这个大背景下应运而生，它给我们提供了一个存储和处理大数据的良好的解决方案，短短的几年时间里，它已无处不在，事实上它已经成了大数据技术的代名词。然而在人们越来越多的使用 Hadoop 提供的 MapReduce 框架处理大数据的时候，却发现它存在许多天

2016-12-25 21:18:00 947

转载 Hive总结（七）Hive四种数据导入方式

Hive的几种常见的数据导入方式这里介绍四种：（1）、从本地文件系统中导入数据到Hive表；（2）、从HDFS上导入数据到Hive表；（3）、从别的表中查询出相应的数据并导入到Hive表中；（4）、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表，如下：

2016-12-24 22:03:40 201

转载 HBase总结（十二）Java API 与HBase交互实例

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org

2016-12-24 22:01:48 182

转载 HBase总结（十三）HBase Shell 常用命令及例子

下面我们看看HBase Shell的一些基本操作命令，我列出了几个常用的HBase Shell命令，如下：名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录 put '表名称', '行名称', '列名称:', '值'

2016-12-24 21:59:41 294

转载远程连接Linux （Ubuntu配置SSH服务）端口22

安装OpenSSH Ubuntu缺省没有安装SSH Server，使用以下命令安装： sudo apt-get install openssh-server openssh-client 不过Ubuntu缺省已经安装了ssh client。配置完成后重起： sudo /etc/init.d/ssh restart windows

2016-12-22 22:52:08 416

Hadoop是对大数据集进行分布式计算的标准工具，这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因。它已经成为大数据的操作系统，提供了包括工具和技巧在内的丰富生态系统，允许使用相对便宜的商业硬件集群进行超级计算机级别的计算。2003和2004年，两个来自Google的观点使Hadoop成为可能：一个分布式存储框架(Google文件系统)，在Hadoop中被实现为HDFS；一

2016-12-18 12:53:21 605

转载配置hadoop HIVE元数据保存在mysql中

先确保已经成功安装了HIVE和MYSQL在hive-site.xml中添加如下内容，指定METASTORE的地址以及连接方式刚安装好hive，conf下是没有hive-site.xml文件的，需要复制 hive-default.xml为hive-site.xml。然后再进行修改。 javax.jdo.option.ConnectionURL

2016-12-18 10:59:22 1463

转载 HBase安装配置之伪分布式模式

HBase安装配置之伪分布式模式2016-11-25 22:28 10989人阅读评论(1) 收藏举报分类：hbase-hadoop（8） HBase安装模式有三种：单机模式、分布式（伪分布式和完全分布式）。本教程介绍了HBase的伪分布式模式安装配置的过程，伪分布式模式是把进程运行在一台机器上，但不是同一个JVM（单机模式），分布式模式的

2016-12-04 14:40:24 470

转载分类模型的评价之AUC

关于AUC，想写的东西有点多，本来计划分3篇文章来写完，但是微信公众平台每天只能发一篇文章，等不及了，所以先写一篇，尽量把想写的都写出来，以后有需要再补充。这篇文章分三部分，第一部分是对AUC的基本介绍，包括AUC的定义，解释，以及算法和代码，第二部分用逻辑回归作为例子来说明如何通过直接优化AUC来训练，第三部分，内容完全由@李大猫原创——如何根据auc值来计算真正的类别，换句话说，就是对

2016-12-01 19:11:45 8057 3

转载准确率，召回率，F1 值、ROC，AUC、mse,mape评价指标

在机器学习、数据挖掘领域，工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标，其中第一、二类主要用于分类场景、第三类主要用于回归预测场景，基本思路是从概念公式，到优缺点，再到具体应用（分类问题，本文以二分类为例）。1.准确率P、召回率R、F1 值定义准确率（Precision）：P=TP/(TP+FP)。通俗地讲，就是预测正确的

2016-12-01 19:02:19 787

转载支持向量机SVM原理

2016-12-01 16:36:19 416 1

快学Scala（中文完整版）

Scala是一门以Java虚拟机（JVM）为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala编写出更加精简的程序，同时充分利用并发的威力。由于Scala运行于JVM之上，因此它可以访问任何Java类库并且与Java框架进行互操作。本书从实用角度出发，给出了一份快速的、基于代码的入门指南。Horstmann以“博客文章大小”的篇幅介绍了Scala的概念，让你可以快速地掌握和应用。实际上手的操作，清晰定义的能力层次，从初级到专家级，全程指导。

2018-01-19

大数据技术之spark技术内幕.zip

本书主要介绍了spark环境搭建、rdd的实现原理、spark的调度等知识

2018-01-19

Spark大数据处理

本书是国内首本系统讲解 Spark 编程实战的书籍，涵盖 Spark 技术的方方面面。 1)对 Spark 的架构、运行机制、系统环境搭建、测试和调优进行深入讲解，以期让读者知其所以然。讲述 Spark 最核心的技术内容，以激发读者的联想，进而衍化至繁。 2)实战部分不但给出编程示例，还给出可拓展的应用场景。 3)剖析 BDAS 生态系统的主要组件的原理和应用，让读者充分了解 Spark 生态系统。本书的理论和实战安排得当，突破传统讲解方式，使读者读而不厌。本书中一些讲解实操部署和示例的章节，比较适合作为运维和开发人员工作时手边的书; 运行机制深入分析方面的章节，比较适合架构师和 Spark 研究人员，可帮他们拓展解决问题的思路。

2018-01-18

算法导论（第三版）

2016-12-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

清晨随笔