自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

韩利鹏

大数据云计算,算法

  • 博客(12)
  • 资源 (5)
  • 问答 (1)
  • 收藏
  • 关注

原创 spark2.0.1创建Popeline

Popeline 为流程,是spark创建机器学习的一个流程控制的类 下面直接贴出创建的代码,以及整个流程 第一种:package mlib_import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apa

2016-12-20 23:18:39 697

原创 sparksql获取网络输入流

不解释—–package org.apache.spark.examples.sql.streamingimport org.apache.spark.sql.functions._import org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) {

2016-12-15 23:48:41 676

原创 sparksql的基本使用

sparksql是简化编程,是使用sql来分析数据,跟sql的用法很相似,可以直接在命令行里面使用sql语句进行分析,查询,同时也可以使用代码来进行编程,下面我来简单的介绍下使用scala语言进行sparksql的编程: 里面涉及到了RDD和Dataframe和DataSet之间的区别,可以参考http://www.jianshu.com/p/c0181667daa0 RDD和Dataframe

2016-12-15 23:30:22 1314

原创 sparksql各种数据源

sparksql各种数据源的测试: 大致的有json文件parquet文件,和常用的文件,jdbc等 还有hbase的数据源(还没有贴出,可能要等几天贴出来了) 代码:一般过程: 第一步创建:利用SparkSeesion进行创建,一般是sparkSeesion.read.format(“格式”).load(“文件路径”) 第二部:进行一般操作 第三部:保存文件,或者保存到其他的地方:一般

2016-12-15 22:04:18 3155

原创 统计web日志里面一个时间段来面的get请求数量

日志数据:0:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:31 +0800] "GET /CloudDocLib/portal/deamon/manage.jsp HTTP/1.1" 200 138210:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:32 +0800] "GET /CloudDocLib/xng/xngAction!lis

2016-12-15 21:36:23 1381

原创 sparkStreaming带状态更新(scala)

带状态的更新是使用的updateStateByKey方法,里面传入一个函数,函数小自己写,注意需要设置checkpointpackage sparkStreaming__import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}imp

2016-12-15 21:03:35 1568

原创 spark与kafka连接测试

测试环境:scala版本为2.11.8,jdk版本为java1.7.79 搭建的工程为maven工程,所需要的依赖有:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2

2016-12-15 20:14:39 1889

原创 sparkstreaming输入测试(网络端口数据)

scala程序实现 接收一个端口发来的信息:端口信息使用模拟程序来实现一个端口发来的信息:代码如下: 程序生成A-G的随机字母package sparkStreaming_import java.io.PrintWriterimport java.net.ServerSocket/** * Created by xiaopengpeng on 2016/12/11. */class

2016-12-11 21:46:36 1782

原创 倒排索引(scala版)

元数据: 结果数据: 贴出自己的代码:object DaoPai2{ def main(args: Array[String]): Unit = { //在spark本地单节点运行配置 val conf =new SparkConf() conf.setAppName("DaoPai").setMaster("local") val sc = new Spa

2016-12-11 14:59:09 2012

原创 spark搭建

前提:安装好了scala java hadoop 然后安装spark,只需要解压spark 1:修改配置文件 spark-env.sh 在主节点上进入spark安装目录 conf目录执行如下命令:cp spark-env.sh.template spark-env.shvi spark-env.sh添加 hadoop、scala 、Java环境变量(根据自己实际情况来配置)export

2016-12-08 18:14:10 686

原创 spark-shell基本的RDD操作

spark RDD的常用操作 RDD的操作分为两种,一种是转化操作,一种是执行操作,转化操作并不会立即执行,而是到了执行操作才会被执行 转化操作:map() 参数是函数,函数应用于RDD每一个元素,返回值是新的RDD flatMap() 参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDD filter() 参数是函数,函数会过滤掉不符合条

2016-12-07 17:33:50 1865

原创 idea和eclipse的快捷键

idea的快捷键:Alt+回车 导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动补

2016-12-07 17:09:35 1926

mongodb-Linux版本

linux平台的mongodb版本是3.2.18.tgz,可以直接解压使用,想不要资源分的,但是选择不了,尴尬

2017-12-04

scala源码-2.11.x.zip

scala源码2.11.x,是学习scala,查看源码的必备东西,拿走不谢,本来是不要分的,可是不能不选,就少选点吧。

2017-11-03

SQLyog Enterprise_jb51.net.zip

能够对对数据库进行可视化的操作,内涵破解工具,简单好用

2016-10-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除