- 博客(12)
- 资源 (5)
- 问答 (1)
- 收藏
- 关注
原创 spark2.0.1创建Popeline
Popeline 为流程,是spark创建机器学习的一个流程控制的类 下面直接贴出创建的代码,以及整个流程 第一种:package mlib_import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apa
2016-12-20 23:18:39 697
原创 sparksql获取网络输入流
不解释—–package org.apache.spark.examples.sql.streamingimport org.apache.spark.sql.functions._import org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) {
2016-12-15 23:48:41 676
原创 sparksql的基本使用
sparksql是简化编程,是使用sql来分析数据,跟sql的用法很相似,可以直接在命令行里面使用sql语句进行分析,查询,同时也可以使用代码来进行编程,下面我来简单的介绍下使用scala语言进行sparksql的编程: 里面涉及到了RDD和Dataframe和DataSet之间的区别,可以参考http://www.jianshu.com/p/c0181667daa0 RDD和Dataframe
2016-12-15 23:30:22 1314
原创 sparksql各种数据源
sparksql各种数据源的测试: 大致的有json文件parquet文件,和常用的文件,jdbc等 还有hbase的数据源(还没有贴出,可能要等几天贴出来了) 代码:一般过程: 第一步创建:利用SparkSeesion进行创建,一般是sparkSeesion.read.format(“格式”).load(“文件路径”) 第二部:进行一般操作 第三部:保存文件,或者保存到其他的地方:一般
2016-12-15 22:04:18 3155
原创 统计web日志里面一个时间段来面的get请求数量
日志数据:0:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:31 +0800] "GET /CloudDocLib/portal/deamon/manage.jsp HTTP/1.1" 200 138210:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:32 +0800] "GET /CloudDocLib/xng/xngAction!lis
2016-12-15 21:36:23 1381
原创 sparkStreaming带状态更新(scala)
带状态的更新是使用的updateStateByKey方法,里面传入一个函数,函数小自己写,注意需要设置checkpointpackage sparkStreaming__import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}imp
2016-12-15 21:03:35 1568
原创 spark与kafka连接测试
测试环境:scala版本为2.11.8,jdk版本为java1.7.79 搭建的工程为maven工程,所需要的依赖有:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2
2016-12-15 20:14:39 1889
原创 sparkstreaming输入测试(网络端口数据)
scala程序实现 接收一个端口发来的信息:端口信息使用模拟程序来实现一个端口发来的信息:代码如下: 程序生成A-G的随机字母package sparkStreaming_import java.io.PrintWriterimport java.net.ServerSocket/** * Created by xiaopengpeng on 2016/12/11. */class
2016-12-11 21:46:36 1782
原创 倒排索引(scala版)
元数据: 结果数据: 贴出自己的代码:object DaoPai2{ def main(args: Array[String]): Unit = { //在spark本地单节点运行配置 val conf =new SparkConf() conf.setAppName("DaoPai").setMaster("local") val sc = new Spa
2016-12-11 14:59:09 2012
原创 spark搭建
前提:安装好了scala java hadoop 然后安装spark,只需要解压spark 1:修改配置文件 spark-env.sh 在主节点上进入spark安装目录 conf目录执行如下命令:cp spark-env.sh.template spark-env.shvi spark-env.sh添加 hadoop、scala 、Java环境变量(根据自己实际情况来配置)export
2016-12-08 18:14:10 686
原创 spark-shell基本的RDD操作
spark RDD的常用操作 RDD的操作分为两种,一种是转化操作,一种是执行操作,转化操作并不会立即执行,而是到了执行操作才会被执行 转化操作:map() 参数是函数,函数应用于RDD每一个元素,返回值是新的RDD flatMap() 参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDD filter() 参数是函数,函数会过滤掉不符合条
2016-12-07 17:33:50 1865
原创 idea和eclipse的快捷键
idea的快捷键:Alt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动补
2016-12-07 17:09:35 1926
servlet读取jsp中的file内容
2016-08-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人