自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Scala Java Random 用法

Scala Java Random 用法 mark 一下常用的 random 用法~ 加载Random: import scala.util.Random val random = new Random() 常用: 随机生成 [0,n) 的整数,注意左开右闭: ...

2020-07-02 16:43:07 9 0

原创 Spark缓存 之 Collect Cache Persist

Spark 之 Collect Cache Persist 三者都有汇聚数据,拉取数据存储的作用,mark一下各自的作用。 Collect: /** * Return an array that contains all of the elements in this RDD...

2020-06-29 20:13:49 27 0

原创 Scala 实现Python Arange

使用scala时有arange的需求,但是没有找到相对应函数,只找到了group,sliding函数,于是自己实现一个: 目标: 给定起点,终点和份数,得到arange结果 实现: 计算起始点长度与分类数,得到每一步的Step,然后循环添加即可。这里还加了隐式转换是为了函数传参类型...

2020-06-19 17:08:41 37 0

原创 Spark Streaming 接任意数据源作为 Stream

Spark Streaming 接任意数据源作为 Stream 问题出发点 工程中遇到流式处理的问题时,多采用Spark Streaming 或者 Storm 来处理;Strom采用Spout的流接入方式,Streaming采用Stream的流接入方式,为了方便本地测试,所以选择了spark ...

2020-06-11 17:58:44 97 0

原创 Maven 打包踩坑之ClassNotFoundException 与 NoClassDefFoundError

Maven 打包踩坑之ClassNotFoundException 与 NoClassDefFoundError 问题: spark streaming程序在本地运行正常,上传至服务器运行时出现如下错误: Caused by: java.lang.ClassNotFoundExcept...

2020-06-10 15:25:29 109 0

原创 Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法

Detected both log4j-over-slf4j.jar AND slf4j-log4j12.jar 解决方法 问题: 导入spark依赖包后,local模式下运行spark本地程序报错: Caused by: java.lang.IllegalStateException:...

2020-06-09 20:10:39 52 0

原创 java.lang.NoSuchMethodError 之 依赖冲突解决方案
原力计划

NoSuchMethodError 解决方案大全 问题: 本机测试环境运行无误,在服务器和别的jar包一起打包在一起运行报错,这种大概率为依赖冲突问题 java.lang.NoSuchMethodError:com.google.protobuf.CodedInputStream.rea...

2020-06-05 15:27:17 256 0

原创 io.netty | ERROR org.apache.spark.network.client.TransportClient - Failed to send RPC

问题: 使用Spark时 RDD的map,foreach等操作正常,执行collect到本地时报错,本地文件大小约为5m。 解决: 在博客上查报错信息有如下解释: 1.dirver端内存不足,spark强制关闭了任务,这里本地文件为5m,排除内存不足问题 2.spark core ver...

2020-06-04 11:05:11 78 0

原创 Spark LogisticRegression 线性回归总结
原力计划

LogisticRegression 是机器学习中最常用的算法,这里根据使用情况总结了Spark LR的使用demo: Tip: 本文使用数据格式为Libsvm 一.Lr线性回归推导与python实现在之前的博文已经介绍过 ,本文着重介绍spark使用 https://blog.csdn...

2020-05-27 17:02:37 127 0

原创 Scala Set使用与性能分析

Scala 经常遇到需要去重和取交集的情况,这里对Set简单使用和性能进行分析: val a = Set(1,2,3) val b = Set(2,3,4) 1.交集 println(a & b) println(a intersect(b)) ...

2020-05-14 15:13:27 68 0

原创 Scala Json与map互转

Map2Json import com.alibaba.fastjson.{JSONArray, JSONObject} val map = mutable.HashMap("1"->1,"2"->2,"3...

2020-04-30 14:24:22 125 0

原创 Sum 函数 Axis 详解

编程过程中经常需要对数组进行处理,而sum又是经常需要用到的函数,sum函数传参时会用到axis参数,低维度还好,高维度经常容易混淆,本文基于TF,对数组sum时axis进行详解,即对哪个位置加,加完形状变什么样: Tip:tf只是用来调用生成结果,对axis的理解适合任意语言 Sum ...

2020-04-28 15:22:16 67 0

原创 Shell 检查HDfS文件

平常脚本运行需要检查对应hdfs路径相关信息,特此总结: Tip: 假设要检查的路径为check_path 1.获取路径文件大小并转化为规定单位 Byte,K,M,G bytes获取文件大小,单位为字节;base为转换单位的基准,我这里取1G,所以是1x1024x1024x1024bytes...

2020-04-27 14:31:49 53 0

原创 Scala 获取时间,时间戳,时间差

经常遇到处理时间与获取当前时间,记录一下: 1.获取时间 1)获取当前时间 dateFormat规定好想要的数据格式 常用的对应如下: 格式 yyyy MM dd HH mm ss 对应 年 月 日 小时 分钟 ...

2020-04-26 14:19:20 292 0

原创 Shell 常用分割字符串

经常需要用shell对字符串或者路径解析,mark两种自己常用的分割方法: 1.awk 示例: echo $name|awk -F '_' '{print $1}' Tip: -F后面跟要使用的分隔符 $1类似于取分割后的第一个内容,输出最后一个内...

2020-04-13 16:48:34 48 0

原创 Scala 序列化 反序列化 Object

网上的序列化object教程都是基于Java写的,没有Scala版本,只能自己动手改造一下= = 1.要序列化类,首先写一个基础类供我们操作: 非常基础,只有姓名和年龄两个变量的基础类 class Student() extends java.io.Serializable{ var ...

2020-04-09 13:06:47 345 0

原创 Scala 优雅的break

scala使用map的foreach过程中,发现无法中途break,必须全部遍历,对于达到一定条件即退出的程序很不友好,于是改变思路,找到几种退出循环的方法:​​​​​​​ ...

2020-03-27 20:24:38 42 0

原创 HDFS 误删恢复

Tip: 这里是hadoop已配置trash功能,没有trash的暂时还不知道怎么恢复 = = mark一下,手残不小心删掉了自己的根目录 1.找路径 误删文件夹后,会出现提示 类似于Moved 误删文件 to trash at: 回收站文件地址 到trash at路径下ls一步一步找...

2020-03-23 10:14:06 77 0

原创 Hive 分区表创建,增加,删除

Hive分区表 1.从HDFS加载数据 A.建表时加载 hive -e "create table if not exists tableName str1 string, str2 string, str3 string ) partitioned by (dt strin...

2020-02-10 14:14:13 127 0

原创 Shell 加减乘除

Shell 加减乘除 Expr echo 加 `expr 9 + 3` echo 减 `expr 9 - 3` echo 乘 `expr 9 \* 3` echo 除 `expr 9 / 3` 加 12 减 6 乘 27 除 3 bc a=`echo "9 + 3&qu...

2020-01-21 16:27:43 89 0

原创 Java Map Compute ComputeIfAbsent ComputeIfPresent方法

Compute,ComputeIfAbsent,ComputeIfPresent 简介 Compute为计算,即当前key的newValue值基于oldValue而得来,与merge方法类似,compute方法也可以自定义Function。 ComputeIfAbsent和ComputeIf...

2020-01-21 15:28:37 115 0

原创 Java Map Merge方法

Merge 先铺下源码: Merge意为合并,这里主要是针对Map多个key-value对进行处理,如果key存在,则执行value的merge方法,这里merge方法是自己定义的,如果key不存在,则会根据默认值将key-value对put到Map中。 default V mer...

2020-01-20 15:15:31 136 0

原创 Idea Git 恢复reset --hard与删除的内容

开发环境:Idea 版本控制:Git 场景: git reset --hard 后修改内容丢失 ,且修改内容未 git add 与 git commit 开发时因为cd错工程目录 误reset -hard重置了另一个工程,里面开发了很多代码,reset后发现git reset --hard...

2020-01-13 16:48:59 386 0

原创 SparkStreaming x Kafka 0.8 / 0.10 消费指南

Streaming x Kafka 实时统计数据时需要用到Spark Sreaming x kafka,spark版本就不多赘述了,kafka版本现在主要分0.8.x.x和0.10.x.x,但是调用相同API消费时发现两者有区别,这里做一下记录。Kafka Streaming生成选择常用的Dir...

2019-12-09 21:38:54 63 0

原创 Hbase 建立分区表 By Scala

问题描述: Hbase在大规模数据数据集情况下拉取数据时,若rowkey密集集中在一台节点,则在批量拉取数据时容易出现数据拉取速度很慢或者出现timeout,如果资源允许的情况下,可以将rowkey根据自己的规则手动split到多个分区中,从而把rowkey均匀打到多台服务器,这样在数据获取时就...

2019-12-04 21:53:28 259 0

原创 GitLab 本地分支关联远程分支

本地分支关联到远程分支,远程分支不存在: 在本地新建了分支 branch_A ,修改功能,想要在远程关联origin/branch_A,但远程未创建origin/branch_A. git add . git commit -m "更新分支" git push --set...

2019-10-11 20:18:38 123 0

原创 Shell 用for循环和while遍历日期

Shell执行任务时有时需要对hive表做遍历操作并按照dt进行分区,dt数较少时可以采用for循环,但有时需要对一个时间段内的日期进行遍历,这时候就可以使用while对日期进行遍历。 下面分别采用for循环和while循环对日期进行遍历: For循环: for i in {2019080...

2019-09-23 21:44:16 803 0

原创 Scala 之 读取文件第二次没有内容

Scala IO 最近接触了Scala语言 最基础的就是读文件操作数据了 可是发现使用 Source.fromFile(inputFile) 多次读取文件时出现了第二次读取时数据为空的问题 先看下问题: 在主函数中调用Source.fromFile(inputFile)的getLin...

2019-09-22 00:50:11 69 0

原创 Shell If Else语句 数学运算 与 逻辑运算

数学运算 等于 = -eq 不等于 != -ne 大于 > -gt 大于等于 >= -ge 小于 < -lt 小于等于 <= -le Tip : 只能使用最后一列的方法...

2019-08-22 22:25:30 455 0

原创 python 数字图像处理 二 图像的加减乘除与交并补

图像的线性操作 假设f(x,y),g(x,y)分别为两幅已知的图像,图像的线性操作就是直接在每个位置的像素上做运算(两幅图像的尺寸需保持一致),最终得到的图像s(x,y),可能会出现以下问题: 1)会出现不在 [ 0-255 ] 之间的像素点存在,最简单的操作就是小于0的像素点置为0,大于25...

2019-03-02 09:51:56 5095 4

原创 python 数字图像处理1 基本知识

1.定义 一幅图像定义为一个二维数组f(x,y),其中x,y是空间的平面坐标,而在任何一堆空间坐标x,y处的幅值f成为图像在该点的强度或灰度,每个元素都有一个特定的位置和幅值,这些元素称为像素。 2.图像处理分类 低级处理:输入,输出都是图像,例如降噪,对比度增强,图像锐化 中级处理:...

2019-03-01 09:56:52 516 0

原创 Python 提取Windos聚焦的登陆图片

  引言        用Win10也有一段时间了,发现设置了Windows聚焦的锁屏十分好看,虽然网上有教程,可以找到对应的本地地址,但每次还需要重命名,然乎复制粘贴到自己指定的文件夹,为了省事,闲暇之余用python写了一个脚本,可以自动将windows聚焦的图片拷到自己指定的目录上,脚本...

2019-02-23 22:28:12 245 0

原创 编程笔记-rand7()生成rand10()

概述 已知随机数生成函数rand7()可以生成整数1-7之间的均匀分布,如何使用rand7()构造rand10(),使rand10()可以生成整数1-10的均匀分布   分析 要保证rand10()生成的随机数是1-10的均匀分布,可以先产生1-10*n的均匀分布,假设x是1-10*n区间...

2018-12-10 11:37:02 448 0

原创 数据结构笔记-二叉树及其实现 python

概述 二叉树是一种最简单的树形结构,其特点是树中每个结点至多关联到两个后继结点,也就是,一个节点可以关联到的结点可以为0,1,2,这也是二叉树一个节点度的定义,另一个特点是结点关联的后继结点明确的分左右,一般有一个根结点,然后根结点的左右后继结点分别称为根结点的左,右孩子,或者左,右关联结点。 ...

2018-11-26 13:47:46 96 0

原创 数据结构笔记-实现链表反转 python

概述 这里主要针对单向链接表,单向连接表的结点是一个二元组,其中元素域elem保存着作为表元素的数据项,连接域next包含着同一个表里下一个节点的标识。在最常见的单链表里,与表里n个元素对应的n个结点通过连接形成一条结点链,从表中任一结点可以找到保存着该标的下一个元素的结点,这样从头结点p出发,...

2018-11-25 12:11:47 126 0

原创 数据结构笔记-栈与队列 python

概述 栈与队列是程序设计中被广泛应用的两种重要的数据结构,都是在特定范围的存储单元内存储数据,这些数据都可以被重新取出使用,与线性表相比,他们的插入和删除受到更多的约束,固又称限定性的线性表结构。他们是最简单的缓存结构,他们只支持数据项的存储与访问,不支持数据项之间的任何关系。因此,这两种数据集...

2018-11-24 12:29:03 221 0

原创 线性模型-局部加权线性回归 机器学习实战

局部加权线性回归线性回归的一个问题是有可能出现欠拟合,因为它求的是具有最小均方误差的无偏估计,显然模型欠拟合将无法做出很好的回归预测,所以有些方法允许在估计中引入一些偏差,从而降低预测的均方误差。局部线性加权的思想是对待预测点附近的每个点赋予一个权重,然后在带权的样本上基于最小均方误差来进行回归....

2018-05-23 17:30:41 1380 0

原创 线性模型-线性回归与实现 西瓜书

线性模型给定d个属性描述的实例x = (x1,x2,...,xd),其中xi是x在第i个属性上的取值,线性模型想要学得一个通过属性的线性组合来进行预测的函数,即:                                                                    ...

2018-05-23 11:27:30 740 4

原创 快速排序-提取排序索引 算法

引言上篇文章的运行结果会返回一个特征重要性列表,表示了一个预测分类问题中,各变量对分类的贡献程度,为了方便,我们需要将重要性排序,从而直观看的哪些是重要的特征,哪些是不重要的,其次,为了提高效率,有时我们需要的是特征对应的索引,而不是特征具体的值,例如我们需要首先知道是几号特征最重要,其次才需要知...

2018-05-19 14:19:46 1221 0

原创 集成学习-随机森林原理与实现 西瓜书

多样性增强在讲随机森林之前,先讨论一下多样性增强.在集成学习中需要有效的生成多样性大的个体学习器,与构造单一学习器对比而言,一般是通过在学习过程中引入随机性,常见的做法是对数据样本,输入属性,输出表示,算法参数进行扰动.1)数据样本扰动给定初始数据集,可从中产生生不同的数据子集,再利用不同的数据子...

2018-05-18 14:33:47 753 0

提示
确定要删除当前文章?
取消 删除