排序:
默认
按更新时间
按访问量

ALS算法讲解

Kendall秩相关系数(Kendall rank correlation coefficient) 对于秩变量对:         注:Sir Maurice George Kendall,1907~1983,英国统计学家。这个人职业生涯的大部分时间都是一个公务员,二战期间出任英国...

2018-08-14 20:10:32

阅读数:6

评论数:0

SPARK RDD JAVA API 用法指南

  1.RDD介绍:     RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。     Spark中的RDD就是一个不可...

2018-08-14 19:19:47

阅读数:19

评论数:0

spark map flatMap flatMapToPair mapPartitions 的区别和用途

import akka.japi.Function2; import org.apache.spark.HashPartitioner; import org.apache.spark.SparkConf; import org.apache.spark.api....

2018-08-14 19:11:00

阅读数:12

评论数:0

spark中flatMap函数用法

说明 在spark中map函数和flatMap函数是两个比较常用的函数。其中 map:对集合中每个元素进行操作。 flatMap:对集合中每个元素进行操作然后再扁平化。  理解扁平化可以举个简单例子 val arr=sc.parallelize(Array(("A&...

2018-08-14 18:58:34

阅读数:13

评论数:0

Hadoop2.7.6在Windows7单机部署

安装参考:Hadoop2.7.4 在 Windows 10(64位) 详细配置 安装参考:Windows7-8-10安装部署hadoop-2.7.5 1 配置jdk1.8 不要安装在空格的目录中,你会发现hadoop和spark不支持有空格的目录配置 2下载hadoop-2.7.6 3下...

2018-08-14 14:33:52

阅读数:11

评论数:0

Oracle jdk 历史版本官方下载地址及下载方法

平时要新装一个系统环境,或者下载最新的jdk,就需要到oracle官网去下载一个jdk,而目前生产环境都是1.7的环境下开发完成的,需要下载1.7版本的jdk,oracle官方网站的默认下载页面是1.8版本的。面对oracle官网一堆不熟悉的英文,从哪里能直接下呢? 首先访问: http://w...

2018-08-14 13:20:15

阅读数:52

评论数:0

Java面试中常问的Spring方面问题

1、一般问题 1.1. 不同版本的 Spring Framework 有哪些主要功能? VersionFeatureSpring 2.5发布于 2007 年。这是第一个支持注解的版本。Spring 3.0发布于 2009 年。它完全利用了 Java5 中的改进,并为 JEE6 提供了支持。Sp...

2018-08-11 21:08:44

阅读数:16

评论数:0

SpringBoot启动解析

Spring Boot、Spring MVC 和 Spring 有什么区别? 分开描述各自的特征: Spring 框架就像一个家族,有众多衍生产品例如 boot、security、jpa等等。但他们的基础都是Spring 的ioc和 aop,ioc 提供了依赖注入的容器, aop解决了面向横切面...

2018-08-11 21:03:11

阅读数:11

评论数:0

新手的深度学习综述 | 入门

选自arXiv,作者:Matiur Rahman Minar、Jibon Naher,机器之心编译,参与:翁俊坚、刘晓坤。 这篇综述论文列举出了近年来深度学习的重要研究成果,从方法、架构,以及正则化、优化技术方面进行概述。机器之心认为,这篇综述对于刚入门的深度学习新手是一份不错的参考资料,在形成...

2018-08-11 20:42:46

阅读数:15

评论数:0

用PMML实现机器学习模型的跨平台上线

在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型...

2018-08-10 14:54:15

阅读数:123

评论数:0

深度学习笔记——基于传统机器学习算法(LR、SVM、GBDT、RandomForest)的句子对匹配方法

句子对匹配(Sentence Pair Matching)问题是NLP中非常常见的一类问题,所谓“句子对匹配”,就是说给定两个句子S1和S2,任务目标是判断这两个句子是否具备某种类型的关系。如果形式化地对这个问题定义,可以理解如下: 意思是给定两个句子,需要学习一个映射函数,输入是两个句子对,经过...

2018-08-10 14:49:22

阅读数:77

评论数:0

Spark MLlib学习

1. 机器学习 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。 机器学习强调三个关键词:算法、经验、性能,其处理过程如上图所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要...

2018-08-10 14:22:58

阅读数:7

评论数:0

Spark MLlib实现的广告点击预测–Gradient-Boosted Trees

关键字:spark、mllib、Gradient-Boosted Trees、广告点击预测 本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下载地址:htt...

2018-08-10 14:16:41

阅读数:5

评论数:0

Spark中的键值对操作-scala

  1.PairRDD介绍     Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为PairRDD。PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如,PairRDD提供了reduceByKey()方法,可以分别规约每个键对应的数据,还有join...

2018-08-10 14:12:53

阅读数:104

评论数:0

快速理解Spark Dataset

1. 前言 RDD、DataFrame、Dataset是Spark三个最重要的概念,RDD和DataFrame两个概念出现的比较早,Dataset相对出现的较晚(1.6版本开始出现),有些开发人员对此还不熟悉,本文重点引领快速理解Dataset。 带着几个问题去阅读: 1、DataFra...

2018-08-10 14:10:29

阅读数:10

评论数:0

Spark基本操作SparkSession,Dataset<Row>,JavaRDD<Row>

一、Spark创建 1.创建SparkSession /** * local[*]表示使用本机的所有处理器创建工作节点 * spark.driver.memory spark的驱动器内存 * Spark2.2好像是需要最小2G */ SparkSession session = Sp...

2018-08-10 13:38:37

阅读数:13

评论数:0

关于SparkMLlib的基础数据结构Spark-MLlib-Basics

此部分主要关于MLlib的基础数据结构 1、本地向量 MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):   i...

2018-08-10 13:35:36

阅读数:10

评论数:0

spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable

出现“task not serializable&quot;这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有: ...

2018-08-10 13:14:35

阅读数:9

评论数:0

《深入理解Elasticsearch》读书笔记

题记 由于之前已经梳理过Elasticsearch基础概念且在项目中实战过Elasticsearch的增删改查、聚类、排序等相关操作,对ES算是有了一定的认知。 但是,仍然对于一些底层的原理认知模糊,特买来《深入理解Elasticsearch》过了一遍,将书中一些细节知识点结合官网文档梳理如下...

2018-08-07 16:13:10

阅读数:11

评论数:0

Elasticsearch全量数据增量遍历实现原理

0、需求 针对凤凰网财经版块的新闻数据和评论数据, 1个索引存储采集凤凰网财经版块的新闻数据;1个索引存储相关的财经数据评论结果。  统计:  1)某条新闻的评论数的多少?  2)某条评论属于哪条新闻?  3)当前已采集数据的所有评论、评论数汇总,按照评论数逆序排序,以便于图形化展示。 1、问...

2018-08-07 15:50:01

阅读数:8

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭