自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 模仿mnist数据集制作自己的数据集

模仿mnist数据集制作自己的数据集 最近看深度学习,用TensorFlow跑教程里的模型,发现教程里大多都是用mnist和cifar这两个数据集来演示的。想测试自己的数据集看看初步效果,于是就想套用现有的模型,将自己的数据集做成和mnist或cifar数据集格式一模一样的格式。然后就发现Tens...

2017-08-05 20:18:28 28225 235

原创 (超详细)读取mnist数据集并保存成图片

mnist数据集介绍、读取、保存成图片 1、mnist数据集介绍: MNIST数据集是一个手写体数据集,简单说就是一堆这样东西  MNIST的官网地址是 MNIST; 通过阅读官网我们可以知道,这个数据集由四部分组成,分别是  ;也就是一个训练图片集,一个训练标签集,一个测试图片集,一个...

2017-08-05 11:38:00 28724 31

原创 模仿CIFAR-10数据集制作自己的数据集(亲测有效)

模仿CIFAR-10数据集制作自己的数据集(亲测有效)

2017-07-20 22:21:18 5342 10

原创 Spark操作——行动操作(二)

集合标量行动操作 存储行动操作 存储行动操作 saveAsTextFile(path: String): Unit saveAsTextFile(path: String, codec: Class[_ <: CompresssionCodec]): Uni...

2020-05-26 10:08:00 26 0

原创 Spark操作——行动操作(一)

集合标量行动操作 存储行动操作 集合标量行动操作 first(): T 返回RDD中的第一个元素,不进行排序 count(): Long 返回RDD中的元素个数 reduce(f:(T, T) => T): T 根据映射函数f,对元素进行二元计...

2020-05-23 22:29:52 35 0

原创 Spark操作——控制操作

cache(): RDD[T] persist(): RDD[T] persist(level: StorageLevel): RDD[T] cache和persist操作都是对RDD进行持久化,其中cache是persist采用MEMORY_ONLY存储级别时的一个特例,...

2020-05-23 16:05:17 47 0

原创 Spark学习笔记——转换操作(四)

基础转换操作 键值转换操作 键值转换操作 cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] cogroup[W](other: RDD[(K, W)], numPartition...

2020-05-23 14:56:17 57 0

原创 Spark操作——转换操作(三)

基础转换操作 键值转换操作 键值转换操作 partitionBy(partitioner: Partitioner):RDD[(K,V)] 将原来的RDD根据给定的Partitioner函数进行重新分区。 scala> val rdd = sc.makeRDD...

2020-05-23 10:47:54 52 0

原创 Spark操作——转换操作(二)

基础转换操作 键值转换操作 基础转换操作 mapPartitions[U](f:(Iterator[T]) => Iterator[U], preservesPartitioning: Boolean=false): RDD[U] mapPartitions操作...

2020-05-15 18:48:54 40 0

原创 Spark操作——转换操作(一)

基础转换操作 键值转换操作 基础转换操作 map[U](f:(T)=>U):RDD[U] 对RDD中的每个元素都应用一个指定的函数,以此产生一个新的RDD scala> var rdd = sc.textFile("/Users/lyf/Des...

2020-05-15 16:59:35 66 0

原创 Spark操作——创建操作

并行化创建操作 外部存储创建操作 并行化创建操作 parallelize[T](seq: Seq[T], numSlices: Int=defaultParallelism):RDD[T] # 并行化操作1到10数据集,根据能启动的Executor数据来进行切分多...

2020-05-15 16:51:45 55 0

原创 Filebeat安装部署教程

简介 Filebeat是一个轻量级的日志收集工具,安装在客户端,资源消耗少。Filebeat监控并收集指定路径下的日志文件信息,并将收集到的日志数据发送到Elasticsearch或者Logstash。 Filebeat工作示意图 Filebeat启动后会监控一个或多个目录下的日志文...

2020-05-14 15:15:21 91 0

原创 Redis如何禁用高危命令

Redis如何禁用高危命令高危命令禁用或重命名 对于生产环境中使用的Redis一定要禁用一些高危命令,避免因误操作而造成的巨大损失。 高危命令 1. KEYS # 虽然该命令的模糊匹配功能很强大,但只适用于小数据量,当数据量很大时会导致Redis锁住及CPU飙升,建议禁用或重命名 ...

2020-03-25 17:07:33 126 0

原创 Redis未授权访问漏洞介绍及修复方案

Redis 漏洞介绍 1. 什么是Redis未授权访问漏洞 Redis 暴露在公网(即绑定在0.0.0.0:6379,目标IP公网可访问),并且没有开启相关认证和添加相关安全策略情况下会被攻击者利用,比如未添加防火墙规则来避免其他非信任IP访问等。 2.有哪些危害 攻击者利用 Redi...

2020-03-25 16:55:55 147 0

原创 Zookeeper quota管理

Zookeeper的quota机制可以设置节点个数及空间大小 语法 setquota -n|-b val path # 设置节点quota信息 listquota path # 获取节点quota信息 deletequota # 删...

2019-10-14 19:00:40 119 0

原创 Zookeeper ACL机制

权限介绍 Zookeeper权限管理(ACL)支持5种权限 CREATE:创建子节点 READ:获取本节点数据、节点信息及子节点列表 DELETE:删除子节点 WRITE:设置本节点数据 ADMIN:设置本节点权限 权限设置 语法 se...

2019-10-14 18:05:18 103 0

原创 Supervisor配置文件浅析

官方文档:http://supervisord.org/configuration.html supervisor的配置文件通常命名为supervisord.conf,启动时若没有使用参数-c指定参数文件,则会在本地按照一定的顺序查找名为supervisord.conf的文件,查找目录顺序: ...

2019-10-14 17:47:11 82 0

原创 Supervisor的安装与部署

简介 supervisor是一个进程管理工具,使用python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具,可以很方便的监听、启动、停止、重启一个或多个进程。用supervisor管理的进程,当一个进程意外被杀死,supervisor监听到进程死后...

2019-10-14 17:41:58 125 0

原创 Zookeeper的CLI命令

Zookeeper的命令行界面(CLI)用于与Zookeeper集群进行交互以用于开发目的。 一、CLI命令 [zk: localhost:2181(CONNECTED) 0] -h ZooKeeper -server host:port cmd args addauth schem...

2019-09-27 18:50:17 547 0

原创 Zookeeper架构浅析

一、架构 部分 描述 Client 分布式应用程序集群中的一个节点,连接服务器进行访问。对于特定的时间间隔,客户端向服务器端发送消息已使服务器知道客户端还活着。相反,当客户端连接时,服务器会发送确认,若服务器无响应,则客户端会自动将消息重定向到另一个服务器。 Serv...

2019-09-27 18:36:32 92 0

原创 Zookeeper安装部署

一、下载 官网:http://www.apache.org/dyn/closer.cgi/zookeeper 下载apache-zookeeper-3.5.5-bin.tar.gz 二、安装(单机模式) $ mv apache-zookeeper-3.5.5-bin.tar....

2019-09-27 18:08:49 88 0

原创 MapReduce中实现自定义分区Partitioner

有时候在利用mapreduce进行任务计算时,需要按照不同的规则,将不同的结果输出到不同的文件中,以便将计算结果分类。比如有这样一组数据,我们需要根据第一列的编号进行划分,让相同编号的第二列内容输出到同一个文件中,不同编号的内容输出到不同的文件中。 0,hello world 1,hello ...

2019-07-14 10:29:42 69 0

原创 Redis基本数据类型——列表类型

列表类型可以存储一个有序的字符串列表,常用的操作是向列表两端添加元素、或者获取列表某一个片段。 Redis的列表类型是使用双向链表实现的。向两端添加、删除元素的时间复杂度为O(1)。 1、向两端添加、删除元素 格式 redis> LPUSH key value [value …...

2019-05-27 22:01:00 118 0

原创 Redis基本数据类型—散列类型

散列类型是一种字典结构的键值对,其中字段值必须是字符串类型 1、赋值与取值 格式 redis> HSET key field value # 单个字段赋值 redis> HGET key field ...

2019-05-15 08:06:50 87 0

原创 Redis基本数据类型—字符串类型

字符串类型是Redis中最基本的数据类型,它可以存储任何形式的字符串,包括二进制数据。其他的类型都是以字符串类型为基础,可以看作是字符串类型的不同组织形式。 1、赋值与取值 格式 redis> SET key value ...

2019-05-14 09:09:25 79 0

原创 Redis 安装教程

目录 1、OS X 系统安装 2、启动redis 3、测试客户端连接 1、OS X 系统安装 $ brew install redis 安装完成 2、启动redis 直接启动 根据提示可以有两种: $ brew services start redis $ red...

2019-05-13 23:17:40 80 0

原创 Mapreduce中获取输入文件名及路径的方法

在map函数中想要获取当前split所读取的文件名,方法如下: 1 不通用方法 1 如果读入的文件类型为 TextInputFormat,则获取文件名如下: String filePath = context.getConfiguration().get("mapreduce.m...

2019-04-15 22:40:06 1086 0

原创 shell字符串截取方法汇总

假设有一个变量var var="https://www.baidu.com/123" 1、#号截取,删除左边字符,保留右边字符 echo ${var#*//} www.baidu.com/123 注释:#号运算符,*//表示从左边开始,删除第一个//及左边所有字符 ...

2019-04-11 08:55:49 80 0

转载 vim中实现大小写转换

格式: [开始位置] ———— 可以定位开始的位置,默认为光标所在位置 gu ———— 选择范围内转小写 gU ———— 选择范围内转大写 [结束位置] ———— 可以定位结束位置,可跟着类似w,6G,G,gg等定位操作 注:以下命令无需进入命令行模式,vim打开文件直接键入命令即...

2019-03-09 22:22:59 362 0

翻译 Hadoop DistCp 命令

一、概述 Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具,使用Map/Reduce实现文件的分发、错误处理和恢复,以及生成相应的报告。要拷贝的文件和目录列表会作为map任务的输入,每个map任务处理部分文件的拷贝任务。 二、使用方法 集群间的拷贝: $ hadoop ...

2019-02-24 19:41:49 703 0

原创 Mapreduce读写Avro序列化文件

目录 (1)  MapReduce读取Avro格式文件 (2)  MapReduce写入Avro格式文件 以WordCount为例来简单说明一下MapReduce如何读写Avro格式的序列化文件,小白初学,如有错误,欢迎批评指正! 首先pom.xml文件中需要引入相关依赖 &l...

2018-11-17 19:45:31 444 0

原创 AirFlow 如何传参数给DAG

题外话(可以直接跳过进入正题):     最近需要使用airflow去调度任务,平常使用airflow都是调度的定时任务,这次不需要定时任务,只需要条件满足时主动触发airflow执行任务调度即可,同时将任务必要的外界参数传给DAG。查了好多资料发现都没有介绍如何将参数传给DAG的,于是就去看a...

2018-11-14 23:00:07 4054 3

原创 MapReduce 中获取Parquet 格式文件的schema

在MapReduce中读取Parquet格式文件时,默认会自动获取文件的Schema,不需要进行额外的设置即可读取。如果想获取指定文件的Schema,应该怎么做呢? 1、maven相关依赖 <properties> ... <parquet.version&...

2018-10-18 23:09:44 1106 2

原创 IDEA Maven项目利用Junit4进行单元测试

    最近在开发项目的时候需要写单元测试,之前一直没有接触过,于是从零开始入门学习,查了网上相关资料,总结成为笔记,在此感谢各位大佬的详细资料!!! 目录 0、背景 1、单元测试简介 2、实践 (1)创建项目 (2)创建Junit_Test_Demo的单元测试 (3)运行单元测试 ...

2018-10-10 22:13:39 3627 0

翻译 StreamSets 简介

目录   1. 什么是StreamSet Data Collector 2.  如何使用StreamSets Data Collector 3.  StreamSets Data Collector是如何工作的? 1. 什么是StreamSet Data Collector     S...

2018-09-03 19:51:34 1842 0

翻译 利用streamSet搭建一个简单的数据管道

本教程利用StreamSet搭建一个简单的数据管道,具体为:从本地目录中读取文件,并在分支中处理读取的文件数据,最后将处理的数据写入到本地目录。将通过数据预览来配置数据管道,并添加数据报警功能。 由于是初次尝试,难免存在错误,不足之处还请大神不吝赐教!!! 目录 0  数据准备 1 配置管...

2018-09-03 18:39:49 4095 0

原创 Mac 环境变量介绍

1、Mac系统环境变量加载顺序: 1. /etc/profile 2. /etc/paths 3. ~/.bash_profile 4. ~/.bash_login 5. ~/.profile 6. ~/.bashrc 注: 优先级:1&gt;2&gt;3&gt...

2018-08-18 22:30:28 100 0

原创 Mac中Vim的配置方案

前沿:在用vim查看或编写代码的时候,如果代码没有高亮显示,一定是很不爽的体验~那么如何配置Vim的代码高亮显示呢? 1、查看系统中自带的配色方案 $ ll /usr/share/vim/vimXX/colors/ 注:vimXX中的XX根据每个人的电脑的不同而不同 显示结果如下(配...

2018-08-18 21:53:02 1064 0

原创 StreamSets 下载安装教程

本教程以 StreamSet 3.4.0 为例 StreamSet有多种安装方式,最简单的一种就是下载压缩包,直接解压即可使用   1、下载StringSet压缩包 StringSet下载地址:https://streamsets.com/opensource/ 执行以下语...

2018-08-08 23:05:22 3959 0

原创 MapReduce读写ORC文件

MapReduce读写ORC文件ORC的全称是Optimized Row Columnar。ORC文件格式是hadoop生态圈中的一种列式存储格式,最早来自于Apache Hive, 有着非常高的压缩比和读取效率,成为Hive中常用的一种文件格式。1、读ORC文件OrcFileReadMapper...

2018-06-16 17:50:31 1282 0

提示
确定要删除当前文章?
取消 删除