自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 在Tekton Pipeline中,使用python基本环境容器运行Python项目

python基本环境容器(下称A)运行python项目(下称B),B读取集群NFS共享数据(下称C),处理数据后写入C。 3. NFS搭建 目的:使用NFS模拟数据共享 3.1 NFS Server端 1. 配置 yum install nfs-utils mkdir /var/nfs chmod...

2020-02-18 21:50:23 143 0

原创 【kubectl】The connection to the server localhost:8080 was refused - did you specify the right host or

Server Agent journalctl -xefu kubelet failed to run Kubelet: failed to create kubelet: misconfiguration: kubelet cgroup driver: "systemd&...

2020-02-13 16:09:05 121 0

原创 Tekton pipeline打包Java代码为JAR(PipelineResource+Task+TaskRun)

一、定义输入资源

2020-02-12 13:46:24 153 0

原创 Tekton pipeline DEMO + 探索一些tkn命令

https://github.com/tektoncd/pipeline/blob/master/docs/tutorial.md 安装Tekton CLI(与Tekton交互的CLI) curl -LO https://github.com/tektoncd/cli/releases/dow...

2020-02-06 22:43:54 155 0

原创 Tekton安装(记录)

kubectl apply --filename https://storage.googleapis.com/tekton-releases/pipeline/previous/v0.9.2/release.yaml 尝试fanqiang拉取镜像: https://blog.mrwang...

2020-02-06 17:29:24 416 0

原创 Spark shuffle调优

一、优化前: shuffle写的比例为输入数据的1.5倍: 二、优化后: 三、RDD压缩 spark.shuffle.compress 序列化后,shuffle write仍然较大,考虑压缩 sparkConf.set("spark.rdd.compress", "...

2019-05-31 17:02:02 270 0

原创 centos7.5英伟达驱动:unable to find the kernel source tree for current running kernel;nvidia-smi has faild

1 安装cuda_10.0.130_410.48_linux.run自带的410.48 driver成功,但是nvidia-smi显示 查看NVIDIA显卡驱动版本 cat /proc/driver/nvidia/version 显示驱动安装成功 lspci | grep -i nvidia显示...

2019-05-21 16:49:37 1248 3

原创 Spark递归遍历HDFS并筛选文件,Spark集群模式记录自己的调试日志

文章目录一、递归遍历HDFS并筛选文件1-1、对于本地文件系统1-2、对于HDFS文件系统二、Spark集群模式记录自己的调试日志 一、递归遍历HDFS并筛选文件 1-1、对于本地文件系统 public static boolean logFilter(Path path){ ...

2019-05-17 12:32:51 654 0

原创 干货:Spark RDD写入HBase 优化

一、hbase.regionserver.handler.count 该配置参数用于定义regionserver上用于等待响应用户表级请求的线程数,通常的配置规则是: 当每次请求的数据量较大时(如接近MB的单次put,cache较大的scan操作),设小一些; 当每次请求负载较小时,则可把该值...

2019-05-09 13:22:51 895 0

原创 Bulk Load——Spark 批量导入多列数据到HBase(scala/Java)

一、流程 Spark加载HDFS上的数据 ——> 数据清洗 ——> 准备HBase表 ——> 数据量预估,预分裂——> 数据整理为表的格式 ——> 批量写入 ——> 优化 此文主要记录后四个步骤 未优化时,大概1200万条数据/h (10G数据) 二、准备HBa...

2019-05-06 17:44:45 1378 1

原创 【@deprecated】Hadoop3,IDEA远程访问集群进行调试,Scala+Java混合开发

1-1、擦除编码 https://hadoop.apache.org/docs/r3.0.3/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html 1-2、Hadoop 3 端口号的改变 1-3、支持2个以上的NameNode https:...

2019-04-24 18:02:16 264 0

原创 tensorflow 恢复模型部分权重,CNN输出到LSTM

一、需求 语音增强迁移训练时,希望在CNN后面接2层LSTM 但是后面几层CNN(VGG16)的feature map尺寸太小,怕LSTM学不到东西 恢复前7层CNN的权重,然后第7层的输出reshape之后作为LSTM的输入 恢复但不冻结 二、步骤 参考tf.train.saver文档 参考...

2019-04-07 15:24:25 656 2

原创 大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1

组机缘由: 最近两次实习的工作内容,都与大数据关联不大,所积累的一些本就学得不深的知识便忘得不少。 深度学习和大数据都很感兴趣,考虑到毕设是深度学习项目,故准备过几天投一些大数据的实习岗。利用周末的时间,捣鼓毕设。这样一来,做大数据,好的CPU,大的内存必不可少;做深度学习,大显存的显卡必不可少。...

2019-03-10 17:10:54 693 0

原创 pydoc些许分享

2019-01-06 10:24:35 155 0

原创 keras些许分享

2019-01-06 10:18:37 144 0

原创 keras train_on_batch中合理使用callback进行tensorboard可视化

train_on_batch returns Scalar training loss (if the model has a single output and no metrics) or list of scalars (if the model has multiple outputs ...

2018-12-21 15:51:46 3763 0

原创 模型训练batch数据抽样

自定义DataGenerator 生成器,结合佛如循环以及yield来产生数据 但是以下代码暂时不能保证每个epoch,数据有且仅有一次参与训练 以下代码摘自:https://github.com/yongxuUSTC/sednn import numpy as np class Data...

2018-12-20 16:24:01 978 0

原创 随机森林的进一步思考

非数值型特征 首先,对于非数值列,肯定得想办法处理为数值型或者onehot编码。 sklearn中,DictVectorizer可以做这件事: DictVectorizer implements what is called one-of-K or “one-hot” coding for ...

2018-11-28 11:26:16 258 0

原创 pyhon中使用librosa处理音频数据

stage 1 jupyter中“浏览”音频: import IPython.display as ipd # TO play ipd.Audio('./noisex-92/001.wav') librosa官网demo: from __future__ import...

2018-11-27 21:29:36 2515 0

原创 python错误记录

numpy会限制字符串长度 ctpn = np.array(ctpn, dtype=str) # np会截取长度 比如说,line_split[1] = line[1], line[1]长度超过32的,都会截断 stackoverflow,有人这样说: NumPy will use...

2018-11-25 09:21:24 227 0

原创 (六):Flink 编程模板,Batch 示例,远程运行flink作业,CDH中HADOOP_CLASSPATH

java模板 doc 地址:https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/java_api_quickstart.html。 新建一个目录,在该目录下: curl https://flink.apac...

2018-11-15 14:43:29 1611 0

原创 python3版本的flask环境,使用Python 和 Flask实现restful服务

错误做法 1. 在搭建py3的flask虚拟环境时,virtualenv --no-site-packages py3flask 报错: virtualenv ImportError: cannot import name _remove_dead_weakref 加上了参数–no-site-pa...

2018-11-13 16:12:07 1346 0

原创 2018NIMA_ Neural Image Assessment阅读笔记

前言 笔记最初是在有道云做的,没用markdown编写,时间原因,前面先上笔记截图吧。不影响阅读。有时间补上文字版。 笔记截图 文字(未补图) While technical quality assessment deals with measuring low-level degr...

2018-11-13 14:21:12 899 0

原创 记一次随机森林小实践

代码是从Jupyter Notebook导出来的 过程中借鉴了些的数据清洗写法,有时间再补充。 好记性不如烂笔头,免得下次又导出查语法。 py版本 # -*- coding: utf-8 -*- # @Time : 18-11-1 上午10:43 # @Author : wanghai #...

2018-11-01 11:13:38 433 0

原创 记困扰很久的pytorch加载模型OOM,python import执行流程,python“懒运行”,whindows控制ubuntu远程桌面

前提: cudnn已装,7.0.5 cuda:9.0.716 conda create -n tfgpu16 Python=3.6 conda install tensorflow-gpu==1.6.0

2018-10-26 13:03:00 754 0

原创 keras gpu的问题

官方这样说道 如果是tensorflow、cntk作为后端,那么会自动检测 theano可以手动设置 但是我这的速度,让人怀疑并没有运行在gpu上(一张图,运行时间近10秒) 尝试运行时指定 CUDA_VISIBLE_DEVICES=0 python demo.py 运行时间无变化 ...

2018-10-24 19:15:09 1122 0

原创 Spark Structed Streaming的一些主要特性及与Spark Streaming之间的对比

Spark Streaming 众所周知,Spark Streaming中的数据结构是Dstream,是对RDD的进一步的封装。 Spark Structed Streaming 对比

2018-10-20 22:02:32 3458 6

原创 (五)Flink小demo,java+scala,SBT+Maven,socket拒绝访问

Demo-Scala_SBT 使用SBT构建flink的Scala项目: 1.新建一个scala-SBT项目 2.Next 目前idea使用的sbt版本为0.13.X系列与我本地的1.0.0版本不同,但是不要紧,不影响执行命令时,会使用本地的SDK。【官方目前主要维护的版本有两个:0.13.X...

2018-10-05 23:37:02 996 0

原创 (四): Flink1.6.1 standalone集群模式安装部署,几个常用参数配置

文章目录NameNode检查点异常Flink1.6.1安装前提配置Flink配置master节点JVM内存slavestaskmanager.numberOfTaskSlotsjobstore.cache临时I/O目录启动集群将JobManager / TaskManager实例添加到群集Mave...

2018-10-03 21:50:02 1272 0

原创 实时大数据平台技术选型概要

文章目录一、DELETED1-1 业务背景、业务场景、业务模式1-2 数据峰值、需求二、难点2-1 数据孤岛2-2 不同数据的定制化数据抽取方案2-3 数据完整性、安全性2-4 单点故障2-5 其他三、架构(粗略)3-1 架构图总览3-2 数据采集3-2-1 分布式消息队列KafkaRabbitM...

2018-10-01 16:53:40 4185 0

原创 (三):Flink数据流编程模型

前言 仍然是学概念,以下大部分是对官方doc的翻译,但是也会有些个人的理解(主要是对比Spark),以及查找的一些解决自己的一些疑惑相关资料。 从Flink 的数据流编程模型和分布式运行环境的基本概念开始学习会对您了解其他部分的文档有帮助,包括安装以及编程指南。强烈推荐先阅读这两部分文档。 数据流...

2018-10-01 16:41:30 822 0

原创 (二):Flink概述,Flink如何支持批流处理,程序流程

文章目录前言Flink能做什么选择微批处理还是实时处理计算流程(组件)TODO:容错机制的类比、计算资源调度的类比Flink如何支持批流处理参考 前言 以下都尽量对比Spark(或者大数据生态的其他技术)进行理解 Flink能做什么 支持批处理 交互式处理 实时流数据处理 支持用SQL分析 支持...

2018-09-30 15:11:44 2803 1

原创 (一):小白的Flink学习计划以及进度表

文章目录学习计划第一阶段看视频看博客官方doc第二阶段看书看英文博客定期研究某一主题大一点的demo或者实践第三阶段源码正在开发的特性 || 会议进度表第一阶段视频 学习计划 以下几个阶段,其实并不是这么界限分明(比如你在学视频时,也完全可以看书看源码什么的),这只是我的大致划分,适合自己的才是最...

2018-09-30 15:10:53 945 3

原创 实时机器学习系统调研

文章目录前言难点实时机器学习的分类[^1]对应部分开源技术MahoutSpark mlibStormFlinkML其他,是否实时未知Apache SystemMLMADlibPredictionIO实时推荐系统参考 前言 我把实时机器学习理解为两种情况: 1、 实时出结果: 这时使用的依然是离线训...

2018-09-18 23:37:37 2091 0

原创 kafka(三): 数据生产流程,数据复制与Replica Failover

数据复制 kafka中,每一个partition,有一个leader(所以集群并不是一定只有一个leader,可能有多个leader),其他follower去拉取数据。 考虑到数据的一致性,Kafka中,消费者只能读取被commit的数据,因为如果允许消费者读取非commit的数据,考虑消费者...

2018-09-06 03:46:14 163 0

原创 kafka(二):测一测各种参数的合适值,性能优化,生产者消费者实战

文章还在进一步整理中。。。 写在前面 kafka权威指南很久前已经看完了。今天打算根据所学到的知识进行一些基准测试和调优。本篇文章侧重实践+少量源码分析+部分原理分析,更多的原理分析、理解放在下篇文章中 【实战过程中,脑海中冒出了太多的疑惑和想解决的问题,我认为消息中间件 比之前学习的大数据...

2018-09-04 23:06:50 1144 0

原创 hive任务,一些map长时间无法结束

多线程同步写ES 切分文件 在这篇文章中使用代码切割文件,这里尝试使用split命令切分文件。 split -l 250000 all_rate.csv 25万行为分界线分割文件 import org.elasticsearch.action.bulk.BulkRequestBui...

2018-08-20 23:51:17 2301 0

原创 Elasticsearch数据全量导入HBase,scroll的正确使用姿势,HBase数据到Hive

1、代码 相关文章: elasticsearch数据到hive、es-hadoop6.3.0 Hbase Java API简单实践(附源代码解释) 按照惯例,先上代码 (代码还有很多可以优化的地方,待正式工作了,有了更海量的需要处理的数据,更复杂的应用场景,我再回来更新此文。) 只贴出...

2018-08-16 22:31:57 1607 1

原创 ElasticSearch多线程写入实战(一)多线程同步异步写入ES,模拟hadoop文件拆分处理,join与CountDownLatch的区别,多线程读写小练习

数据预处理 1、网站爬取数据,写为csv 2、添加表头 sed -i ‘1i\时报错: sed: -i may not be used with stdin mac中应该写为:【mac自带的sed命令,是基于bsd的,所以与Linux-like下常用的gnu不一样】 sed -i &a...

2018-08-09 00:47:30 3089 0

原创 elasticsearch数据到hive、es-hadoop6.3.0

同一模块中日志输出到不同文件 elasticsearch数据到hive 思路1 思路2 安装ES-hadoop 添加jar包到hive es数据导入到hive的最基础设置 es数据导入到hive进阶之mapping设置 es数据导入到hive进阶之array 相关文章 参...

2018-08-06 00:17:44 3474 2

提示
确定要删除当前文章?
取消 删除