2017年12月_浪尖聊大数据-浪尖

原创 textFile构建RDD的分区及compute计算策略

1,textFileA),第一点，就是输入格式，key，value类型及并行度的意义。def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() //输入文件的格式TextInputFormat，key的类型L

2017-12-30 00:00:00 1371

原创初识PB级数据分析利器Prestodb

初始PB级数据分析利器Prestodb什么是prestodbprestodb整体架构物理执行计划什么是prestodbprestodb,是facebook开源的一款sql on hadoop系统，是facebook的工程师对hive的查询速度忍无可忍后，下决心开发的一款高性能查询引擎，基于java8编写，其基于page的pipeline技术，使其具有高效的交互式查询性能，并可以高效的控制GC；而其

2017-12-26 00:00:00 6332

原创 JAVA之ClassLoader

JAVA基础系列之ClassLoader一，Java类的加载、链接与初始化1，加载:查找并加载类的二进制数据• 通过一个类的全限定名来获取定义此类的二进制字节流• 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构• 在内存中生成一个代表这个类的java.lang.Class类对象，作为方法区这个类的各种数据的访问入口。2，链接验证:确保被加载类的正确性准备:为类的静态变量分配内存，并将

2017-12-24 00:00:00 676

原创 SparkMllib主题模型案例讲解

一本文涉及到的算法1， LDA主题模型符号定义文档集合D，m篇，topic集合T，k个主题D中每个文档d看作一个单词序列，wi表示第i个单词，设d有n个单词。（LDA里面称之为word bag，实际上每个单词的出现位置对LDA算法无影响）D中涉及的所有不同单词组成一个大集合VOCABULARY（简称VOC）LDA符合的分布每篇文章d(长度为)都有各自的主题分布，主题分布式多项分布，该多项分布的

2017-12-21 00:00:00 3048

转载基于Spark Mllib的文本分类

基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题，其主要目标是通过对已有语料库文本数据训练得到分类模型，进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景，如新闻网站的新闻自动分类，垃圾邮件检测，非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类，进而检测其是否为垃圾消息，基本步骤是：首先将文本句子转化成单词数组，进而使用 Word2Vec

2017-12-20 00:00:00 3902 3

原创 Sparkml库标签和索引之间转化

StringIndexerStringIndexer将一串字符串标签编码为一列标签索引。这些索引范围是[0, numLabels)按照标签频率排序，因此最频繁的标签获得索引0。如果用户选择保留它们，那么看不见的标签将被放在索引numLabels处。如果输入列是数字，我们将其转换为字符串值并将为其建索引。当下游管道组件（例如Estimator或 Transformer使用此字符串索引标签）时，必须将

2017-12-20 00:00:00 1396

原创如何将RDD或者MLLib矩阵zhuanzhi

最近老有人在qq群或者公众号留言问浪尖如何将Spark Mllib的矩阵或者将一个RDD进行转置操作。Spark Mllib的矩阵有多种形式，分布式和非分布式，非分布式在这里浪尖就不讲了，很简单，因为他是基于数组的。而分布式存储是基于RDD的，那么问题就又变成了如何将一个RDD进行转置。首先我们来介绍一下什么是转置操作：百科上的定义，将一个矩阵的行列互换得到的矩阵就是该矩阵的转置。要想把一个RDD

2017-12-19 00:00:00 1445

原创 SparkMLlib的数据类型讲解

SparkMLlib的数据类型讲解Mllib支持单机上存储的本地向量和矩阵，也支持由一个或者多个RDD支持的分布式矩阵。本地向量和本地矩阵是简单的数据模型，用作公共接口。由Breeze提供基本的线性代数运算。。在监督学习中使用的训练示例在MLlib中被称为“labeled point”一本地向量本地向量存储于单台机器，其拥有整类型的行，从0开始的索引，和double类型的值。Mllib支持两种类

2017-12-19 00:00:00 2234

转载 HBase在滴滴出行的应用场景和最佳实践

本文主要介绍HBase在滴滴内部的一些典型使用场景，如何设计整个业务数据流，让平台开发者与用户建立清晰、明确、良好的合作关系背景对接业务类型HBase是建立在Hadoop生态之上的Database，源生对离线任务支持友好，又因为LSM树是一个优秀的高吞吐数据库结构，所以同时也对接了很多线上业务。在线业务对访问延迟敏感，并且访问趋向于随机，如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务

2017-12-16 00:00:00 1631 2

转载 Hadoop3.0稳定版的安装部署

号外：本公众号改名为Spark学习技巧了。Apache Hadoop 3.0.0在前一个主要发行版本（hadoop-2.x）中包含了许多重要的增强功能。这个版本通常是可用的（GA），api稳定性和质量已经到了可以再生成中使用的步骤。一概览1，java8是必须所有hadoop 的jar都是利用java8的运行时版本进行编译的。依然在使用java7或者更低版本

2017-12-15 00:00:00 15266

转载 kylin集群Nginx负载均衡

Nginx负载均衡1， Nginx负载均衡简介跨多个应用程序实例的负载平衡是优化资源利用率，最大化吞吐量，减少延迟以及确保容错配置的常用技术。可以使用nginx作为非常高效的HTTP负载均衡器，将流量分配给多个应用程序服务器，并通过nginx提高Web应用程序的性能，可伸缩性和可靠性。2， Nginx负载均衡机制nginx支持以下负载均衡机制（或方法）：循环 - 对应用程序服务器的请求以循环方式分

2017-12-13 00:00:00 2908 1

原创干货 | 如何成为大数据Spark高手

Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台，它立足于内存计算，性能超过Hadoop百倍，从多迭代批量处理出发，兼收并蓄数据仓库、流处理和图计算等多种计算范式，是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题，具有完善的生态系统，这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技术

2017-12-11 00:00:00 4996

原创 SparkML模型选择（超参数调整）与调优

Spark ML模型选择与调优本文主要讲解如何使用Spark MLlib的工具去调优ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和管道中的超参数。模型选择（又称为超参数调整）ML中的一个重要任务是模型选择，或者使用数据来找出给定任务的最佳模型或参数。这也被称为调优。可以针对单个独立的Estimator进行调优，例如LogisticRegression，也可以针对整个Pip

2017-12-10 00:00:00 3897

转载用java提交一个Spark应用程序

第一种方式经常有人在公众号留言或者在群里问浪尖，如何使用java代码提交一个Spark应用程序。在这里浪尖介绍一种简单的方法来实现这个功能。首先用vim打开一个文件，MyLauncher.java编写代码如下：import org.apache.spark.launcher.SparkAppHandle;import org.apache.spark.launcher.SparkLauncher;

2017-12-09 00:00:00 4764

转载读懂Word2Vec之Skip-Gram

本教程将介绍Word2Vec的skip gram神经网络体系结构。我这篇文章的目的是跳过对Word2Vec的一般的介绍和抽象见解，并深入了解其细节。具体来说，我正在深入skipgram神经网络模型。模型介绍skip-gram神经网络模型其最基本的形式实际上是惊人的简单; Word2Vec使用了一个你可能在机器学习中看到过的技巧。我们将训练一个带有单个隐藏层的简单的神经网络来完成某个任务，但是实际上

2017-12-08 00:00:00 19437 4

转载 CountVectorizer

CountVectorizer关于文本特征提取，前面一篇文章TF-IDF介绍了HashingTF，本文将再介绍一种Spark MLlib的API CountVectorizer。CountVectorizer 和 CountVectorizerModel旨在帮助将文本文档集合转化为频数向量。当先验词典不可用时，CountVectorizer可以用作Estimator提取词汇表，并生成一

2017-12-07 00:00:00 4369

转载 SparkMLLib中基于DataFrame的TF-IDF

一简介假如给你一篇文章，让你找出其关键词，那么估计大部分人想到的都是统计这个文章中单词出现的频率，频率最高的那个往往就是该文档的关键词。实际上就是进行了词频统计TF(Term Frequency，缩写为TF)。但是，很容易想到的一个问题是:“的”“是”这类词的频率往往是最高的对吧？但是这些词明显不能当做文档的关键词，这些词有个专业词叫做停用词(stop words)，我们往往要过滤掉

2017-12-06 00:00:00 1441

转载基于java的中文分词工具ANSJ

ANSJ这是一个基于n-Gram+CRF+HMM的中文分词的java实现.分词速度达到每秒钟大约200万字左右（mac air下测试），准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记等功能可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.分词的目的是创建一个高稳定可用的中文分词工具,可以利用到各种需

2017-12-05 00:00:00 10662

转载基于DataFrame的StopWordsRemover处理

stopwords简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方，我们对这些停止词做出一些特殊处理，以方便我们更关注在更重要的一些词上。对于不同类型的需求而言，对停止词的处理是不同的。1. 有监督的机器学习 – 将停止词从特征空间剔除2. 聚类– 降低停止词的权重3. 信息检索– 不对停止词做索引4. 自动摘要- 计分时不处理停止词对

2017-12-04 00:00:00 2696

转载基于DF的Tokenizer分词

Tokenizer分词进行文本分析前，对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库，由于基于RDD的库在Spark2.0以后都处于维护状态，我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。1 首先准备数据导包importorg.

2017-12-04 00:00:00 3078

转载案例：Spark基于用户的协同过滤算法

一基于用户协同过滤简介基于用户的协同过滤算法(user-based collaboratIve filtering)基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买，收藏，内容评论或分享)，并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。简单的说就是如果A,B两个用户都购

2017-12-03 00:00:00 5249

原创支付宝用大数据憋死伪基站骗子

如果一个小偷，用伪基站发送钓鱼短信，费尽心机偷了用户的支付宝密码，结果却死活拿不走里面的钱，这看得见吃不着的感受，该有多心塞呀！但，就是有这么憋屈的小偷。事件回放广州用户黄XX，6月7日接到一条10086的短信（小偷通过伪基站发送的钓鱼短信），他点击了短信中的链接，依据指示先后输入了自己的身份证信息和银行卡信息，同时，手机中了木马病毒。各类信息+木马，让

2017-12-02 00:00:00 3246

原创请别再问我Spark的MLlib和ML库的区别

机器学习库（MLlib）指南MLlib是Spark的机器学习（ML）库。其目标是使实际的机器学习可扩展和容易。在高层次上，它提供了如下工具：ML算法：通用学习算法，如分类，回归，聚类和协同过滤特征提取，特征提取，转换，降维和选择管道：用于构建，评估和调整ML管道的工具持久性：保存和加载算法，模型和管道实用程序：线性代数，统计，数据处理等公告：

2017-12-01 00:00:00 23483 1

大数据星球-浪尖