apache spark
旭旭_哥
码农一枚
展开
-
基于spark的版位价格预测,广告计算
在广告计算行业,经常要用到版位价格预测,这不正好凑巧做了一个,模型基本思路是,选用的是随机森林模型,模型在spark里面训练好,存储在redis中,然后在别的地方调用,看看主程序吧,csdn没有scala的语言关键字,只能用python了,具体看看代码吧:package com.iclick.spark.buzzads.stats/** * @author wilson.原创 2016-04-27 17:15:27 · 1907 阅读 · 0 评论 -
spark中文文本分类
最近要做一个点评中文的文本分类模型,想在spark中训练模型,然后通过把tf过程、idf过程、以及模型封装到一个类里面一个java类中,然后写到redis中,但是spark中idf过程中碰到一些困难,忘高手赐教,先看下面代码:package com.meituan.spark.modelimport org.apache.log4j.{ Level, Logger }import原创 2017-04-01 15:01:44 · 2566 阅读 · 3 评论 -
基于spark的新词发现模型
package com.icklick.spark.wordSegmentimport org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import com.iclick.spark.wordSegment.util.CounterMapimport scala.c原创 2016-04-27 17:08:40 · 3580 阅读 · 6 评论 -
spark streaming窗口函数的使用和理解
spark streaming中的窗口函数虽然不如flink那么丰富,但是特别有用,看下面例子: kafkaStream.transform { rdd => offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges rdd}.map(_._2).map((_, 1)).reduceByKeyAndW原创 2016-12-14 10:18:46 · 13794 阅读 · 2 评论 -
spark streaming读取kakfka数据手动维护offset
在spark streaming读取kafka的数据中,spark streaming提供了两个接口读取kafka中的数据,分别是KafkaUtils.createDstream,KafkaUtils.createDirectStream,前者会自动把offset更新到zk中,默认会丢数据,效率低,后者不会经过zk,效率更高,需要自己手动维护offse,通过维护护offset写到zk中,保障数据零原创 2016-12-13 15:32:45 · 6491 阅读 · 5 评论 -
flink从安装到提交任务
本操作全部在Windows下环境进行操作,linux环境下更为简单下载:flink这东西安装要启动local模式还是比较简单的,首先从官网上下载 http://flink.apache.org/downloads.html 我下载的是最新版本1.1.3,解压flink:下载完后对其进行解压,我解压所在的目录在D:\flink-1.1.3-bin-hadoop26-sca原创 2016-11-03 10:45:24 · 8809 阅读 · 0 评论 -
利用Flink stream从kafka中写数据到mysql
眼看到年底了,许久也没更新博客,最近也比较清闲,顺带学习了下大数据框架Flink, 这框架跟Spark类似,上手比较容易,使用的话两三天就可以开始写代码,在有些方面比spark要强,比如说流处理,下面就用flink中的Stream从kafka中读取数据写入到mysql中,废话不多说,具体上代码吧:首先看配置文件:#mysqlmysql.driver=com.mysql.jdbc.Dri原创 2016-11-02 23:26:43 · 19132 阅读 · 8 评论 -
spark2.0中逻辑回归模型
今天上午看了下spark2.0中的逻辑回归模型,相比以前mllib版本确实改进不少,逻辑回归模型再次不再多说,原理较为简单,模型中的一些参数设定,自己要主要,代码主要是用maven跟git进行管理,数据是官方自带的数据,代码中没有模型保存的方法。package com.iclick.mlimport org.apache.log4j.Levelimport org.apache.log4j原创 2016-09-03 11:48:56 · 3826 阅读 · 0 评论 -
spark中自然语言处理的一些方法
spark中常用的一些自然语言处理方法,分词、tf-idf、word2vec、文本分类等看看代码吧:package com.iclick.word2vecimport org.apache.log4j.{ Level, Logger }import org.apache.spark.{ SparkConf, SparkContext }import org.apache.spark.sq原创 2016-06-27 12:22:23 · 6063 阅读 · 0 评论 -
利用spark生成tfrecord文件
目前数据越来越多,数据一般存储在hdfs上,但是目前许多深度学习算法是基于TensorFlow、pytorch等框架实现,使用单机python、java做数据转换都比较慢,怎么大规模把hdfs数据直接喂到TensorFlow中,在这里TensorFlow提供了一种解决方案,利用spark生成tfrecord文件,项目名称叫spark-tensorflow-connector,GitHub主页在ht...原创 2019-04-24 10:49:28 · 11806 阅读 · 3 评论