2018年08月_hellozhxy

转载 Java Spark RDD编程:常见操作、持久化、函数传递、reduce求平均

RDD是Spark的核心抽象，全称弹性分布式数据集（就是分布式的元素集合）。Spark中对数据的所有操作无外乎创建RDD、转化已有RDD和调用RDD的操作进行求值。Spark 会自动将 RDD 中的数据分发到集群上，并将操作并行化执行 RDD在抽象上来说是一种不可变的分布式数据集合(外部文本文件是在创建RDD时自动被分为多个分区)。它是被分为多个分区，每个分区分布在集群的不同节点（自动分发）...

2018-08-31 17:44:58 2178

转载 Spark的RDD操作之Join大全

一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下： /** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`. Each...

2018-08-31 17:33:06 1828

转载 SparkJavaAPI:join的使用

将一组数据转化为RDD后，分别创造出两个PairRDD，然后再对两个PairRDD进行归约（即合并相同Key对应的Value），过程如下图所示：代码实现如下： public class SparkRDDDemo { public static void main(String[] args){ SparkConf conf = new SparkC...

2018-08-31 17:24:42 1469

转载 Spark RDD中cache和persist的区别

转自：http://www.ithao123.cn/content-6053935.html通过观察RDD.scala源代码即可知道cache和persist的区别： def persist(newLevel: StorageLevel): this.type = { 　　if (storageLevel != StorageLevel.NONE && newL...

2018-08-31 17:22:42 302

转载 CTR预估中GBDT与LR融合方案

1、背景 CTR预估（Click-Through Rate Prediction）是互联网计算广告中的关键环节，预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR（Logistic Regression）[1]，LR是广义线性模型，与传统线性模型相比，LR使用了Logit变换将函数值映射到0~1区间[2]，映射后的函数值就是CTR的预估值。LR这种线性模型很容易并行化...

2018-08-31 11:03:00 175

转载 spark 中的RDD编程：基于Java api

1.RDD介绍： RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据分发到集群中，并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Pyt...

2018-08-31 10:48:10 1057

转载 Spark常用函数讲解之键值RDD转换

摘要：RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作 Ation（执...

2018-08-31 09:22:13 213

转载 Spark RDD使用详解2--RDD创建方式

RDD创建方式1）从Hadoop文件系统（如HDFS、Hive、HBase）输入创建。2）从父RDD转换得到新RDD。3）通过parallelize或makeRDD将单机数据创建为分布式RDD。4）基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流创建。从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], ...

2018-08-31 09:20:18 1002

转载 spark RDD创建方式：parallelize，makeRDD，textFile

parallelize调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试scala版本? 1 def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0...

2018-08-31 09:19:10 3034

转载 Scala：Function1、Function2

Scala开篇（目录） Function1 andThen compose Function2 curried tupled Function1带一个参数的方法，声明时，它需要两个泛型参数，第一个是传入的数据类型，第二个表示返回的数据类型，Function1是 trait ，它有一个apply方法，用来对输入参数进行处理了，使用Function1，必须实现...

2018-08-31 09:14:48 1078

转载 eclipse+scala+java+maven 整合实践

一、软件版本Eclipse Mars.1 (4.5.1)Apache Maven 3.3.9二、下载scala plugin1.在scala-ide.org网站上可以找到链接和下载地址http://scala-ide.org/download/current.html2.打开Eclipse，Help -> Install New Software（因网络问题，这个没...

2018-08-29 16:17:00 928

转载在Java项目中整合Scala

Scala是一个运行在Java JVM上的面向对象的语言。它支持函数编程，在语法上比Java更加灵活，同时通过Akka库，Scala支持强大的基于Actor的多线程编程。具有这些优势，使得我最近很想在一个新的项目中使用Scala，但是在新项目中，抛弃我们常用的Java和C#，而直接使用一门新的语言是很困难的。这不仅包括学习新语言这个过程，未来，更为项目的长期发展和日后的开发和支持增加了很多变数。毕...

2018-08-29 16:16:15 3698 1

转载 spark之CF协同过滤

一）、协同过滤1.1 概念　　　　　　　　协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义1.2 分类　1.在基于用户的方法的中，如果两个用户表现出相似的偏好（即对相同物品的偏好大体相同），那就认为他们的兴趣类似。要对他们中的一个用户推荐一个未知物品，　便可选取若干与其类似的用户并根据他们的喜好...

2018-08-28 17:34:51 355

转载如何用java语言调用tensorflow训练好的模型

1.TensorFlow的训练模型在Android和Java的应用及调用2.tensorflow的python离线训练java在线预测方案 3.tensorflow训练的模型在java中的使用4.http://blog.csdn.net/dd864140130/article/details/71774229 ...

2018-08-28 10:37:18 7135

转载 Adaboost、GBDT与XGBoost的区别

Boosting 集成算法中Adaboost、GBDT与XGBoost的区别所谓集成学习，是指构建多个分类器（弱分类器）对数据集进行预测，然后用某种策略将多个分类器预测的结果集成起来，作为最终预测结果。通俗比喻就是“三个臭皮匠赛过诸葛亮”，或一个公司董事会上的各董事投票决策，它要求每个弱分类器具备一定的“准确性”，分类器之间具备“差异性”。集成学习根据各个弱分类器之间有无依赖关系，分为Bo...

2018-08-28 10:22:37 25967 4

转载 Java如何跨语言调用Python/R训练的模型

在如何使用sklearn进行在线实时预测（构建真实世界中可用的模型）这篇文章中，我们使用 sklearn + flask 构建了一个实时预测的模型应用。无论是 sklearn 还是 flask，都是用 Python 编写的，在工业界，我们经常会使用 Python 或 R 来训练离线模型，使用 Java 来做在线 Web 开发应用，这就涉及到了使用 Java 跨语言来调用 Python 或 R...

2018-08-28 09:45:52 5651 4

转载一文“妙”解逻辑斯蒂回归（LR）算法

一、前言在感知器算法中，如下图如果我们使用一个f(z)=z函数，作为激励函数，那么该模型即为线性回归。而在逻辑斯蒂回归中，我们将会采用f(z)=sigmoid(z) 函数作为激励函数，所以它被称为sigmoid回归也叫逻辑斯蒂回归（logistic regression）。需要注意的是，虽然逻辑斯蒂回归的名字中带有回归，但事实上它并不是一种回归算法，而是一种分类算法。作为经典的二分类算...

2018-08-28 09:44:24 1998

转载轻松的玩转Docker的15个小技巧

Tip1获取最近运行容器的id 这是我们经常会用到的一个操作，按照官方示例，你可以这样做（环境ubuntu）：这种方式在编写脚本的时候很有用，比如你想在脚本中批量获取id，然后进一步操作。但是这种方式要求你必须给ID赋值，如果是直接敲命令，这样做就不太方便了。这时，你可以换一种方式： docker ps -l -q命令将返回最近运行的容器的id，通过设置...

2018-08-27 21:07:15 2230

转载 TensorFlow和ML前5名的课程

摘要：想学机器学习，没有这些资源怎么能行？（TFboy修炼记）如果你对人工智能、数据科学和机器学习感到好奇，那么我相信你已经听说过Google的机器学习API ——TensorFlow，他们已经用它来为Google搜索开发Rank Brain算法。TensorFlow是最受欢迎的机器学习API之一，它允许你自动执行多个实际任务。例如，你可以将其用于图像检测。事实上，一位日本农民变成了程序员用它...

2018-08-27 21:04:23 444

转载当你看完这篇朴素贝叶斯（NB）算法后,是否会有怦然心动的感觉

一、引言当一位气象学家提供天气预报时，通常会使用像"明天70%的可能性会下雨"这样的术语来预测j降雨，这些预测称为下雨的概率。你有没有想过他们是如何计算的呢？本文将讲述一种机器学习算法，即依靠概率原则进行分类的朴素贝叶斯(Naive Bayes，NB)分类算法。正如气象学家预测天气一样，朴素贝叶斯算法就是应用先前事件的有关数据来估计未来发生的概率，其核心是贝叶斯方法。本文第2节介绍了贝...

2018-08-27 19:20:23 4849 1

转载推荐系统遇上深度学习(二十)-贝叶斯个性化排序算法原理及实战

排序推荐算法大体上可以分为三类，第一类排序算法类别是点对方法(Pointwise Approach)，这类算法将排序问题被转化为分类、回归之类的问题，并使用现有分类、回归等方法进行实现。第二类排序算法是成对方法(Pairwise Approach)，在序列方法中，排序被转化为对序列分类或对序列回归。所谓的pair就是成对的排序，比如(a,b)一组表明a比b排的靠前。第三类排序算法是列表方法...

2018-08-27 17:40:13 2178

转载【十大经典数据挖掘算法】k-means

作者简介：Treant 人工智能爱好者社区专栏作者博客专栏：https://www.cnblogs.com/en-heng 1、引言k-means与kNN虽然都是以k打头，但却是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派，指将未标注的样本数据中相似的分为同一...

2018-08-27 16:47:44 266

原创 ElasticSearch学习资料

Elasticsearch 5.4 中文文档http://cwiki.apachecn.org/pages/viewpage.action?pageId=4260364 Elasticsearch: 权威指南https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html elas...

2018-08-27 11:38:40 621

转载 Kafka实践：到底该不该把不同类型的消息放在同一个主题中

如果你使用了像Kafka这样的流式处理平台，就要搞清楚一件事情：你需要用到哪些主题？特别是如果你要将一堆不同的事件作为消息发布到Kafka，是将它们放在同一个主题中，还是将它们拆分到不同的主题中？Kafka主题最重要的一个功能是可以让消费者指定它们想要消费的消息子集。在极端情况下，将所有数据放在同一个主题中可能不是一个好主意，因为这样消费者就无法选择它们感兴趣的事件——它们需要消费所有的消息。...

2018-08-27 11:38:22 1253

转载机器学习算法Python实现：gensim里的similarities文本相似度计算

# -*- coding:utf-8 -*#本代码是在jupyter notebook上实现，author:huzhifei， create time:2018/8/14#本脚本主要实现了基于python的gensim包里的similarities接口对文本做相似度的项目目的#导入gensim与jieba包from gensim import corpora, models, sim...

2018-08-26 19:03:41 5168

转载机器学习算法Python实现：基于情感词典的文本情感分析

# -*- coding:utf-8 -*#本代码是在jupyter notebook上实现，author:huzhifei， create time:2018/8/14#本脚本主要实现了基于python通过已有的情感词典对文本数据做的情感分析的项目目的#导入对应的包及相关的自定义的jieba词典import jiebaimport numpy as npjieba.load_us...

2018-08-26 19:03:03 16324 19

转载机器学习算法Python实现：kmeans文本聚类

# -*- coding:utf-8 -*#本代码是在jupyter notebook上实现，author:huzhifei， create time:2018/8/14#本脚本主要实现了基于python通过kmeans做的文本聚类的项目目的#导入相关包import numpy as npimport pandas as pdimport reimport osimport c...

2018-08-26 19:02:23 4723 2

转载机器学习算法Python实现：doc2vec 求句子相似度

# coding:utf-8import sysimport gensimimport sklearnimport numpy as npfrom gensim.models.doc2vec import Doc2Vec, LabeledSentenceTaggededDocument = gensim.models.doc2vec.TaggedDocumentimport ...

2018-08-26 19:01:53 3006

转载机器学习算法Python实现：tfidf 特征词提取及文本相似度分类

# coding: utf-8#本代码主要实现了对于商品名称根据tfidf提取特征词，然后基于已经训练好的word2vec模型，对每行商品的tfidf值大于某一阈值的特征词相似度匹配已经给定的商品类别。import jiebaimport jieba.posseg as psegimport jieba.analyseimport pymssqlimport xlwtfrom s...

2018-08-26 19:01:08 8922 1

转载机器学习算法Python实现：word2vec 求词语相似度

#!/usr/bin/env Python3# coding=utf-8import jiebajieba.load_userdict("C:\\Users\\Desktop\\s_proj\\dict.txt") #自定义分词词典#分词并将结果存入txtf1 =open("C:\\Users\\Desktop\\neg.txt","r",encoding='utf-8',erro...

2018-08-26 19:00:06 3481 2

转载神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

词性标注（Part-of-Speech Tagging, POS）、命名实体识别（Name Entity Recognition，NER）和依存句法分析（Dependency Parsing）是自然语言处理中常用的基本任务，本文基于SpaCy python库，通过一个具体的代码实践任务，详细解释这三种NLP任务具体是什么，以及在实践中三个任务相互之间的关系。介绍说到数据科学时，...

2018-08-26 16:43:22 11376

转载关于TensorFlow你需要了解的9件事

本文对近期在旧金山举办的谷歌 Cloud Next大会上有关TensorFlow的一些特点进行了总结。 1、它是一个强大的机器学习框架TensorFlow是一个基于数据流图的机器学习框架，它是Google Brain的第二代机器学习系统，常被应用于各种感知、语言理解、语音识别、图像识别等多项机器深度学习领域。Tensor（张量）代表了N维数组，Flow（流）代表了基于数据流图的计算...

2018-08-26 15:40:18 3011 1

转载概率论面试系列第一弹: 贝叶斯公式

贝叶斯公式是一个非常常用的概率论里的关于条件概率的公式，是数据科学面试中的常见题型。掌握贝叶斯公式的原理并且使用该公式解决这些问题是数据科学家求职者的必备技能。条件概率(conditional probability)的定义条件概率Pr[A|B]必须定义在两个事件A和B上，含义是在B发生的条件下，A发生的概率。可以想象B是已经满足的条件，条件概率即是在给定条件下A事件的概率。除非...

2018-08-26 12:17:36 5937

转载 Java获取泛型T的类型 T.class

import java.lang.reflect.ParameterizedType;import java.lang.reflect.Type;public class Main{ public static void main(String[] args) { Foo<String> foo = new Foo<String>()...

2018-08-24 20:03:18 29014 1

转载 JSON 序列化与反序列化：使用TypeReference 构建类型安全的异构容器

1. 泛型通常用于集合，如Set和Map等。这样的用法也就限制了每个容器只能有固定数目的类型参数，一般来说，这也确实是我们想要的。然而有的时候我们需要更多的灵活性，如数据库可以用任意多的Column，如果能以类型安全的方式访问所有Columns就好了，幸运的是有一种方法可以很容易的做到这一点，就是将key进行参数化，见以下代码 1 public class Favorites {...

2018-08-24 15:44:54 13365

转载 scala学习笔记-Array、ArrayBuffer以及遍历数组（7）

Array在Scala中，Array代表的含义与Java中类似，也是长度不可改变的数组。此外，由于Scala与Java都是运行在JVM中，双方可以互相调用，因此Scala数组的底层实际上是Java数组。例如字符串数组在底层就是Java的String[]，整数数组在底层就是Java的Int[]。 1 // 数组初始化后，长度就固定下来了，而且元素全部根据其类型初始化 2 val a ...

2018-08-23 21:13:06 778

转载 springMVC详解以及注解说明

springMVC详解以及注解说明基于注释（Annotation）的配置有越来越流行的趋势，Spring 2.5 顺应这种趋势，提供了完全基于注释配置 Bean、装配 Bean 的功能，您可以使用基于注释的 Spring IoC 替换原来基于 XML 的配置。本文通过实例详细讲述了 Spring 2.5 基于注释 IoC 功能的使用。概述注释配置相对于 XML 配置具有很多的优势：...

2018-08-23 21:11:51 2995

转载 redis面试问题（二）

上一篇：https://www.nowcoder.com/discuss/926101.redis和其他缓存相比有哪些优点呢见上一篇2. 你刚刚提到了持久化，能重点介绍一下么见上一篇3.Redis中对于IO的控制做过什么优化？pipeline？4 有没有尝试进行多机redis 的部署？如何保证数据一致的？主从复制，读写分离1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数...

2018-08-22 13:42:57 225

转载 redis面试问题（一）

链接：https://www.nowcoder.com/discuss/92610来源：牛客网最近在学习redis，根据网上的面经整理了两篇常见的问题。本人水平有限，还请各位牛友大佬多多指教！基础知识必备：五大常用数据类型redis与其他缓存的比较rdb和aof=================================常见问题：1、为什么使用redis...

2018-08-22 13:41:12 239

转载【十大经典数据挖掘算法】C4.5

作者简介： Treant 人工智能爱好者社区专栏作者博客专栏：https://www.cnblogs.com/en-heng1、决策树模型与学习决策树（decision tree）算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5，Breiman等提出的CART。其中，C4.5是基于ID3的，对分裂属性的...

2018-08-22 10:17:49 4397

hadoop-windows

Z-Stack API

《Z-Stack API 接口》中文版

空空如也