legotime的博客

个人博客:www.ryanbing.com

用Java 实现简单的推荐系统(个人博客地址:www.ryanbing.com )

  package recommender; import java.util.Arrays; /**  * Created by legotime  */ public class recommendTest {     public static void main(String[...

2017-03-28 19:17:36

阅读数 8606

评论数 4

flink扫盲-DataStream中数据源API实验

文章目录直接输入形式fromElementsfromCollectionSocket形式文件形式自定义形式 下面针对DataStream中数据流向API的数据源进行实验 直接输入形式 fromElements step1:编写程序 ElementsInput.java package org.my...

2019-01-06 22:02:45

阅读数 251

评论数 0

flink扫盲-DataStream中数据流向API理解

文章目录基本信息数据源x从何而来?直接输入形式Socket形式文件形式自定义的方式处理规则f(x)有哪些?(transformations)数据y可以存放何处(Data sinks)实验环境附录pom.xml文件 搭建环境然后运行完 helloworld 实验之后,接下来我们就要聊聊flink的数...

2019-01-05 23:20:40

阅读数 271

评论数 0

flink扫盲-实验环境搭建与入门

flink扫盲-实验环境搭建与入门写作缘由flink 入门实验更多配置信息 写作缘由 从flink的Github 介绍我们可以得到如下信息: Apache Flink is an open source stream processing framework with powerful stre...

2019-01-05 23:07:15

阅读数 142

评论数 0

spark应用(三)文本分类

一、特征提取 1、什么是特征提取?      对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法(百度百科)。或者参考多方面的解释: http://www.igi-global.com/dictionary/feature-extraction/10960 特征提取简单来说就是...

2017-03-08 13:48:04

阅读数 2600

评论数 1

Spark应用(二) 二次排序

二次排序就是对按照从左往右,从上往下排好序 数据: c,18,1956 a,20,1356 d,5,1956 f,18,1256 h,3,2956 c,18,2008 y,8,956 a,18,1956 并保存为mySec.txt,放入HDFS如下: 需求1 需求,排序完如下: (a,18,19...

2017-03-08 13:47:00

阅读数 401

评论数 0

Spark应用(一)提取RDD内部信息和信息放入RDD

提取RDD内部信息      对于提取RDD内部信息有的人或许认为是一件非常简单的事情,“直接foreach操作不就行了?”。如果RDD不是为了分布式式计算。那么這样的逻辑就完全可以。 直接在外部顶一个可变量A,然后遍历RDD,A放入RDD遍历逻辑中,遍历完之后,就可以提取RDD内部的信息。但是R...

2017-03-08 13:46:00

阅读数 3167

评论数 0

SparkSQL和Hive自定义函数对比

一、UDF UDF(User-Defined Function),指的是一个输入,一个输出 Hive环境下 1、准备数据 Michael, 29 Andy, 30 Justin, 19 2、上传HDFS

2017-02-10 16:41:39

阅读数 794

评论数 0

基于RDD解决大矩阵问题

import breeze.linalg.{DenseMatrix, DenseVector} import org.apache.spark.rdd.RDD /** * Created by legotime */ case class MatrixEntry(i: Long, ...

2016-10-28 18:04:54

阅读数 671

评论数 0

用scala来写mapreduce做数据去重

1、数据准备 file1数据: mapper reduce by scala file2数据: scala done it 2、程序 import java.io.IOException import java.lang.Iterable import org.apache.hadoop.c...

2016-10-16 19:31:08

阅读数 2049

评论数 0

spark源码阅读笔记Dataset(三)structField、structType、schame

1、structField 源码结构: case class StructField( name: String, dataType: DataType, nullable: Boolean = true, metadata: Metadata = Metadat...

2016-09-23 21:13:17

阅读数 6977

评论数 1

spark源码阅读笔记Dataset(二)Dataset中Actions、function、transformations

package Dataset import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} /** * Created by legotime */ object dataSetOperation { case c...

2016-09-17 13:19:12

阅读数 2905

评论数 0

spark源码阅读笔记Dataset(一)初识Dataset

1、Dataset 是什么 本质上,Dataset在源码中是一个类(和RDD不同,Dataset为非抽象类),其中有三个参数 class Dataset[T] private[sql]( @transient val sparkSession: SparkSession, @D...

2016-09-17 12:58:46

阅读数 3498

评论数 0

scala中 toString和apply的区别

class legotime{ def apply = "this is apply method" /** * 1 :scala中的toString和java中的toSting 一样------所有的对象都有這个方法, * 因为toString 是 ...

2016-08-29 21:19:13

阅读数 1731

评论数 0

scala之case class 和case object

-------------------- 1、case 类只用来修饰  class 和object,也就是说只有case class 和case object的存在 ,而没有case trait 这一说 2、case object A 这个A 是经过序列化的,而 case class A 没有经过...

2016-08-26 14:45:20

阅读数 4874

评论数 0

scala之正则表达式(二)内部匹配函数

1、scala处理正则表达式步骤 以下面表达为例: val dateP1 = new scala.util.matching.Regex("""(\d\d\d\d)-(\d\d)-(\d\d)""", "year", ...

2016-08-02 20:30:28

阅读数 2835

评论数 0

scala之正则表达式(一)基础匹配

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组 成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串 ,我们可以达到如下的目的: 1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”...

2016-08-02 20:29:38

阅读数 17766

评论数 0

SparkStreaming可视化之Wisp

case class Highchart(val series : scala.collection.Traversable[com.quantifind.charts.highcharts.Series],  val title : scala.Option[com.quantifind.cha...

2016-07-25 17:53:38

阅读数 1425

评论数 0

Spark从外部读取数据之wholeTextFiles

wholeTextFiles函数 /** * Read a directory of text files from HDFS, a local file system (available on all nodes), or any * Hadoop-supported file s...

2016-07-11 06:16:03

阅读数 8369

评论数 1

Spark从外部读取数据之textFile

textFile函数 /** * Read a text file from HDFS, a local file system (available on all nodes), or any * Hadoop-supported file system URI, and ret...

2016-07-11 06:13:46

阅读数 56237

评论数 7

提示
确定要删除当前文章?
取消 删除
关闭
关闭