spark中文文本分类

最近要做一个点评中文的文本分类模型,想在spark中训练模型,然后通过把tf过程、idf过程、以及模型封装到一个类里面一个java类中,然后写到redis中,但是spark中idf过程中碰到一些困难,忘高手赐教,先看下面代码: package com.meituan.spark.mode...

2017-04-01 15:01:44

阅读数:1673

评论数:3

spark streaming窗口函数的使用和理解

spark  streaming中的窗口函数虽然不如flink那么丰富,但是特别有用,看下面例子: kafkaStream.transform { rdd => offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetR...

2016-12-14 10:18:46

阅读数:8214

评论数:1

spark streaming读取kakfka数据手动维护offset

在spark streaming读取kafka的数据中,spark streaming提供了两个接口读取kafka中的数据,分别是KafkaUtils.createDstream,KafkaUtils.createDirectStream,前者会自动把offset更新到zk中,默认会丢数据,效率低...

2016-12-13 15:32:45

阅读数:4909

评论数:5

flink从安装到提交任务

本操作全部在Windows下环境进行操作,linux环境下更为简单 下载: flink这东西安装要启动local模式还是比较简单的,首先从官网上下载 http://flink.apache.org/downloads.html   我下载的是最新版本1.1.3, 解压flink: ...

2016-11-03 10:45:24

阅读数:4173

评论数:0

利用Flink stream从kafka中写数据到mysql

眼看到年底了,许久也没更新博客,最近也比较清闲,顺带学习了下大数据框架Flink,  这框架跟Spark类似,上手比较容易,使用的话两三天就可以开始写代码,在有些方面比spark要强,比如说流处理,下面就用flink中的Stream从kafka中读取数据写入到mysql中,废话不多说,具体上代码吧...

2016-11-02 23:26:43

阅读数:9132

评论数:3

spark2.0中逻辑回归模型

今天上午看了下spark2.0中的逻辑回归模型,相比以前mllib版本确实改进不少,逻辑回归模型再次不再多说,原理较为简单,模型中的一些参数设定,自己要主要,代码主要是用maven跟git进行管理,数据是官方自带的数据,代码中没有模型保存的方法。 package com.iclick.ml im...

2016-09-03 11:48:56

阅读数:3084

评论数:0

spark中自然语言处理的一些方法

spark中常用的一些自然语言处理方法,分词、tf-idf、word2vec、文本分类等看看代码吧: package com.iclick.word2vec import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ S...

2016-06-27 12:22:23

阅读数:4086

评论数:0

基于spark的版位价格预测,广告计算

在广告计算行业,经常要用到版位价格预测,这不正好凑巧做了一个,模型基本思路是,选用的是随机森林模型,模型在spark里面训练好,存储在redis中,然后在别的地方调用,看看主程序吧,csdn没有scala的语言关键字,只能用python了,具体看看代码吧: package com...

2016-04-27 17:15:27

阅读数:1432

评论数:0

基于spark的新词发现模型

package com.icklick.spark.wordSegment import org.apache.log4j.{ Level, Logger } import org.apache.spark.{ SparkConf, SparkContext } import com.iclic...

2016-04-27 17:08:40

阅读数:2585

评论数:5

提示
确定要删除当前文章?
取消 删除
关闭
关闭