2016年12月_韩利鹏

12月 11月 10月 09月 08月 07月 06月 05月 04月 02月

原创 spark2.0.1创建Popeline

Popeline 为流程，是spark创建机器学习的一个流程控制的类下面直接贴出创建的代码，以及整个流程第一种：package mlib_import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apa

2016-12-20 23:18:39 697

原创 sparksql获取网络输入流

不解释—–package org.apache.spark.examples.sql.streamingimport org.apache.spark.sql.functions._import org.apache.spark.sql.SparkSessionobject StructuredNetworkWordCount { def main(args: Array[String]) {

2016-12-15 23:48:41 676

原创 sparksql的基本使用

sparksql是简化编程，是使用sql来分析数据，跟sql的用法很相似，可以直接在命令行里面使用sql语句进行分析，查询，同时也可以使用代码来进行编程，下面我来简单的介绍下使用scala语言进行sparksql的编程：里面涉及到了RDD和Dataframe和DataSet之间的区别，可以参考http://www.jianshu.com/p/c0181667daa0 RDD和Dataframe

2016-12-15 23:30:22 1314

原创 sparksql各种数据源

sparksql各种数据源的测试：大致的有json文件parquet文件，和常用的文件，jdbc等还有hbase的数据源（还没有贴出，可能要等几天贴出来了）代码：一般过程：第一步创建：利用SparkSeesion进行创建，一般是sparkSeesion.read.format(“格式”).load(“文件路径”) 第二部：进行一般操作第三部：保存文件，或者保存到其他的地方：一般

2016-12-15 22:04:18 3155

日志数据：0:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:31 +0800] "GET /CloudDocLib/portal/deamon/manage.jsp HTTP/1.1" 200 138210:0:0:0:0:0:0:1 - - [11/Nov/2016:14:41:32 +0800] "GET /CloudDocLib/xng/xngAction!lis

2016-12-15 21:36:23 1381

原创 sparkStreaming带状态更新（scala）

带状态的更新是使用的updateStateByKey方法，里面传入一个函数，函数小自己写，注意需要设置checkpointpackage sparkStreaming__import org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}imp

2016-12-15 21:03:35 1568

原创 spark与kafka连接测试

测试环境：scala版本为2.11.8,jdk版本为java1.7.79 搭建的工程为maven工程，所需要的依赖有：<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2

2016-12-15 20:14:39 1889

原创 sparkstreaming输入测试（网络端口数据）

scala程序实现接收一个端口发来的信息：端口信息使用模拟程序来实现一个端口发来的信息：代码如下：程序生成A-G的随机字母package sparkStreaming_import java.io.PrintWriterimport java.net.ServerSocket/** * Created by xiaopengpeng on 2016/12/11. */class

2016-12-11 21:46:36 1782

原创倒排索引（scala版）

元数据：结果数据：贴出自己的代码：object DaoPai2{ def main(args: Array[String]): Unit = { //在spark本地单节点运行配置 val conf =new SparkConf() conf.setAppName("DaoPai").setMaster("local") val sc = new Spa

2016-12-11 14:59:09 2012

原创 spark搭建

前提：安装好了scala java hadoop 然后安装spark，只需要解压spark 1：修改配置文件 spark-env.sh 在主节点上进入spark安装目录 conf目录执行如下命令：cp spark-env.sh.template spark-env.shvi spark-env.sh添加 hadoop、scala 、Java环境变量（根据自己实际情况来配置）export

2016-12-08 18:14:10 686

原创 spark-shell基本的RDD操作

spark RDD的常用操作 RDD的操作分为两种，一种是转化操作，一种是执行操作，转化操作并不会立即执行，而是到了执行操作才会被执行转化操作：map() 参数是函数，函数应用于RDD每一个元素，返回值是新的RDD flatMap() 参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDD filter() 参数是函数，函数会过滤掉不符合条

2016-12-07 17:33:50 1865

原创 idea和eclipse的快捷键

idea的快捷键：Alt+回车导入包,自动修正Ctrl+N 查找类Ctrl+Shift+N 查找文件Ctrl+Alt+L 格式化代码Ctrl+Alt+O 优化导入的类和包Alt+Insert 生成代码(如get,set方法,构造函数等)Ctrl+E或者Alt+Shift+C 最近更改的代码Ctrl+R 替换文本Ctrl+F 查找文本Ctrl+Shift+Space 自动补

2016-12-07 17:09:35 1926

mongodb-Linux版本

linux平台的mongodb版本是3.2.18.tgz，可以直接解压使用，想不要资源分的，但是选择不了，尴尬

2017-12-04

scala源码-2.11.x.zip

scala源码2.11.x，是学习scala，查看源码的必备东西，拿走不谢，本来是不要分的，可是不能不选，就少选点吧。

2017-11-03

SQLyog Enterprise_jb51.net.zip

能够对对数据库进行可视化的操作，内涵破解工具，简单好用

2016-10-12

servlet读取jsp中的file内容

2016-08-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人