spark
韩利鹏
大数据处理-java高级工程师
展开
-
倒排索引(scala版)
元数据: 结果数据: 贴出自己的代码:object DaoPai2{ def main(args: Array[String]): Unit = { //在spark本地单节点运行配置 val conf =new SparkConf() conf.setAppName("DaoPai").setMaster("local") val sc = new Spa原创 2016-12-11 14:59:09 · 2012 阅读 · 0 评论 -
spark中文文本分析建模(2.0.1)
实用的朴素贝叶斯模型建模的 建模过程主要是把文本转化成向量然后再作分析 数据格式:0,善良 美丽1,丑陋 阴险 卑鄙0,温和.......前面的是给文章贴的标签,后面是文章的分词,分词可以找关于分词的文章去查看,后面我也会写关于分词的文章package model import org.apache.spark.ml.Pipelineimport org.apache.spark.ml原创 2017-01-08 11:54:14 · 2237 阅读 · 0 评论 -
sparkStreaming里面使用文本分析模型(2.0.1)
如果使用模型的建立话请参考另一篇博客建模地址 功能:接收来自kafka的数据,数据是一篇文章,来判断文章的类型,把判断的结果一并保存到hbase,并把文章建立索引(没有代码只有一个空壳,可以自己实现,以后有机会了可能会补上), 代码实现:package spark.mllibimport org.apache.spark.ml.PipelineModelimport org.apache.s原创 2017-01-16 11:19:25 · 1694 阅读 · 0 评论 -
spark mllib和ml类里面的区别
mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象,就可以使用NaiveBayesModel.predict(testData: RDD[Vec原创 2017-01-16 23:33:26 · 4491 阅读 · 0 评论 -
spark向量矩阵的使用(scala)
向量和矩阵都是做机器学习的基础,下面来介绍下使用 spark的底层的向量和矩阵是基于Breeze的,下面主要介绍下Breeze的使用,下面直接给代码,代码上有注释 需要引入的包import breeze.linalg._import breeze.numerics._import org.apache.log4j.{Level, Logger}import org.apache.spark原创 2017-04-12 09:38:32 · 6615 阅读 · 0 评论 -
spark性能调优都有哪些方法
1、常规性能调优:分配资源、并行度。。。等2、JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如OOM)。3、shuffle调优(相当重要):spark在执行grou原创 2017-10-30 15:24:15 · 1409 阅读 · 0 评论 -
SPARK提交job的几种模式
spark常见的提交方式,有local的,有yarn-client,yarn-cluster等,下面来具体的介绍怎么写提交的脚本原创 2017-10-31 11:52:43 · 2543 阅读 · 0 评论 -
spark与spring集成做web接口
需要实现的功能:写访问spark的接口,也就是从web上输入网址就能把我们需要的信息通过提交一个job然后返回给我们json数据。 成果展示: 通过url请求,然后的到一个wordcount的json结果(借助的是谷歌浏览器postman插件显示的,直接在浏览器上输入网址是一样的效果) 使用的关键技术: java语言编程,springmvc框架,tomcat容器,spark框架,scala相原创 2017-11-03 14:40:47 · 9567 阅读 · 6 评论 -
pv统计
对日志文件进行页面的访问统计,获取每天点击量比较高的数据,来显示原创 2017-12-02 15:32:45 · 1262 阅读 · 0 评论 -
日志分析
对平台操作行为记录(现版本还没实施,等上线有需求,有数据了做) 这个主要通过日志进行记录,这个不是对用户进行展示的,是给我们内部去看的,用来改进我们的产品的。 主要进行要记录的日志信息有(这个根据需求来加)ipsessionid 日志级别 userid 点击时间 请求的url 请求的方式 操作的内容 失败的原因请求状态码每一次的点击都记录一条日志,把这些日志进行定...原创 2018-04-04 11:52:38 · 375 阅读 · 0 评论 -
spark2.0.1创建Popeline
Popeline 为流程,是spark创建机器学习的一个流程控制的类 下面直接贴出创建的代码,以及整个流程 第一种:package mlib_import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apa原创 2016-12-20 23:18:39 · 697 阅读 · 0 评论 -
sparkstreaming里面的数据保存到数据里面
从kafka里面取数据到sparkStreaming里面,然后再把数据保存到数据中 关键点,不是每个数据都需要创建连接,只需要为每个分区创建一个连接就可以了 下面是一个简单的例子import java.sql.{ Connection, DriverManager }import com.oracle._import org.apache.spark.streaming._import or原创 2017-01-08 00:37:10 · 1769 阅读 · 0 评论 -
sparkstreaming输入测试(网络端口数据)
scala程序实现 接收一个端口发来的信息:端口信息使用模拟程序来实现一个端口发来的信息:代码如下: 程序生成A-G的随机字母package sparkStreaming_import java.io.PrintWriterimport java.net.ServerSocket/** * Created by xiaopengpeng on 2016/12/11. */class原创 2016-12-11 21:46:36 · 1782 阅读 · 0 评论 -
spark-shell基本的RDD操作
spark RDD的常用操作 RDD的操作分为两种,一种是转化操作,一种是执行操作,转化操作并不会立即执行,而是到了执行操作才会被执行 转化操作:map() 参数是函数,函数应用于RDD每一个元素,返回值是新的RDD flatMap() 参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDD filter() 参数是函数,函数会过滤掉不符合条原创 2016-12-07 17:33:50 · 1865 阅读 · 0 评论 -
spark搭建
前提:安装好了scala java hadoop 然后安装spark,只需要解压spark 1:修改配置文件 spark-env.sh 在主节点上进入spark安装目录 conf目录执行如下命令:cp spark-env.sh.template spark-env.shvi spark-env.sh添加 hadoop、scala 、Java环境变量(根据自己实际情况来配置)export原创 2016-12-08 18:14:10 · 686 阅读 · 0 评论 -
sparkStreaming带状态更新(scala)
带状态的更新是使用的updateStateByKey方法,里面传入一个函数,函数小自己写,注意需要设置checkpointpackage sparkStreaming__import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}imp原创 2016-12-15 21:03:35 · 1568 阅读 · 0 评论 -
统计web日志里面一个时间段来面的get请求数量
日志数据:0:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:31 +0800] "GET /CloudDocLib/portal/deamon/manage.jsp HTTP/1.1" 200 138210:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:32 +0800] "GET /CloudDocLib/xng/xngAction!lis原创 2016-12-15 21:36:23 · 1381 阅读 · 0 评论 -
sparksql各种数据源
sparksql各种数据源的测试: 大致的有json文件parquet文件,和常用的文件,jdbc等 还有hbase的数据源(还没有贴出,可能要等几天贴出来了) 代码:一般过程: 第一步创建:利用SparkSeesion进行创建,一般是sparkSeesion.read.format(“格式”).load(“文件路径”) 第二部:进行一般操作 第三部:保存文件,或者保存到其他的地方:一般原创 2016-12-15 22:04:18 · 3155 阅读 · 0 评论 -
sparksql的基本使用
sparksql是简化编程,是使用sql来分析数据,跟sql的用法很相似,可以直接在命令行里面使用sql语句进行分析,查询,同时也可以使用代码来进行编程,下面我来简单的介绍下使用scala语言进行sparksql的编程: 里面涉及到了RDD和Dataframe和DataSet之间的区别,可以参考http://www.jianshu.com/p/c0181667daa0 RDD和Dataframe原创 2016-12-15 23:30:22 · 1314 阅读 · 0 评论 -
sparksql获取网络输入流
不解释—–package org.apache.spark.examples.sql.streamingimport org.apache.spark.sql.functions._import org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) {原创 2016-12-15 23:48:41 · 676 阅读 · 0 评论 -
spark与kafka连接测试
测试环境:scala版本为2.11.8,jdk版本为java1.7.79 搭建的工程为maven工程,所需要的依赖有:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2原创 2016-12-15 20:14:39 · 1889 阅读 · 0 评论