haixwang-CSDN博客

原创在Tekton Pipeline中，使用python基本环境容器运行Python项目

python基本环境容器（下称A）运行python项目（下称B），B读取集群NFS共享数据（下称C），处理数据后写入C。3. NFS搭建目的：使用NFS模拟数据共享3.1 NFS Server端1. 配置yum install nfs-utilsmkdir /var/nfschmod -R 777 /var/nfschown nfsnobody:nfsnobody /var/nfs...

2020-02-18 21:50:23 1033

原创【kubectl】The connection to the server localhost:8080 was refused - did you specify the right host or

ServerAgentjournalctl -xefu kubeletfailed to run Kubelet: failed to create kubelet: misconfiguration: kubelet cgroup driver: "systemd" is different from docker cgroup driver: "cgroupfs"...

2020-02-13 16:09:05 1627

原创 Tekton pipeline打包Java代码为JAR（PipelineResource+Task+TaskRun）

一、定义输入资源

2020-02-12 13:46:24 1450

原创 Tekton pipeline DEMO + 探索一些tkn命令

https://github.com/tektoncd/pipeline/blob/master/docs/tutorial.md安装Tekton CLI（与Tekton交互的CLI）curl -LO https://github.com/tektoncd/cli/releases/download/v0.7.1/tkn_0.7.1_Linux_x86_64.tar.gztar xvzf...

2020-02-06 22:43:54 1046

原创 Tekton安装(记录)

kubectl apply --filename https://storage.googleapis.com/tekton-releases/pipeline/previous/v0.9.2/release.yaml尝试fanqiang拉取镜像：https://blog.mrwang.pw/2018/12/13/Linux%E5%AE%89%E8%A3%85%E5%B9%B6%E...

2020-02-06 17:29:24 1715

原创 Spark shuffle调优

一、优化前：shuffle写的比例为输入数据的1.5倍：二、优化后：三、RDD压缩spark.shuffle.compress序列化后，shuffle write仍然较大，考虑压缩sparkConf.set("spark.rdd.compress", "true")四、序列化优化4-1、kyro注册sparkConf.registerKryoClasses(Array(cla...

2019-05-31 17:02:02 1067

原创 centos7.5英伟达驱动:unable to find the kernel source tree for current running kernel;nvidia-smi has faild

1安装cuda_10.0.130_410.48_linux.run自带的410.48 driver成功，但是nvidia-smi显示查看NVIDIA显卡驱动版本cat /proc/driver/nvidia/version显示驱动安装成功lspci | grep -i nvidia显示pci插槽有两块nvidia显卡2./usr/bin/nvidia-uninstall卸载驱动然...

2019-05-21 16:49:37 19699 13

原创 Spark递归遍历HDFS并筛选文件，Spark集群模式记录自己的调试日志

文章目录一、递归遍历HDFS并筛选文件1-1、对于本地文件系统1-2、对于HDFS文件系统二、Spark集群模式记录自己的调试日志一、递归遍历HDFS并筛选文件1-1、对于本地文件系统 public static boolean logFilter(Path path){ return path.toString().toLowerCase().endsWith(".l...

2019-05-17 12:32:51 2305

原创干货：Spark RDD写入HBase 优化

一、hbase.regionserver.handler.count该配置参数用于定义regionserver上用于等待响应用户表级请求的线程数，通常的配置规则是：当每次请求的数据量较大时（如接近MB的单次put，cache较大的scan操作），设小一些；当每次请求负载较小时，则可把该值配置较大。同时在请求的数据量大小收到参数。如果单个请求的数据量很大，并且将该值配置的很大时，put并...

2019-05-09 13:22:51 2826

原创 Bulk Load——Spark 批量导入多列数据到HBase（scala/Java）

一、流程Spark加载HDFS上的数据 ——> 数据清洗 ——> 准备HBase表 ——> 数据量预估，预分裂——> 数据整理为表的格式 ——> 批量写入 ——> 优化此文主要记录后四个步骤未优化时，大概1200万条数据/h (10G数据)二、准备HBase表 val table: HTable = null val tableName ...

2019-05-06 17:44:45 5784 2

原创【@deprecated】Hadoop3，IDEA远程访问集群进行调试，Scala+Java混合开发

1-1、擦除编码https://hadoop.apache.org/docs/r3.0.3/hadoop-project-dist/hadoop-hdfs/HDFSErasureCoding.html1-2、Hadoop 3 端口号的改变1-3、支持2个以上的NameNodehttps://hadoop.apache.org/docs/r3.0.3/hadoop-project-dist...

2019-04-24 18:02:16 2093

原创 tensorflow 恢复模型部分权重，CNN输出到LSTM

一、需求语音增强迁移训练时，希望在CNN后面接2层LSTM但是后面几层CNN（VGG16）的feature map尺寸太小，怕LSTM学不到东西恢复前7层CNN的权重，然后第7层的输出reshape之后作为LSTM的输入恢复但不冻结二、步骤参考tf.train.saver文档参考StackOverflow原网络结构如下： for layer_id in range(n_...

2019-04-07 15:24:25 1801 3

原创大数据/深度学习机器组机以及CUDA10+RTX+18.04.2+Tensorflow1.13.1+cuDNN7.3.1

组机缘由：最近两次实习的工作内容，都与大数据关联不大，所积累的一些本就学得不深的知识便忘得不少。深度学习和大数据都很感兴趣，考虑到毕设是深度学习项目，故准备过几天投一些大数据的实习岗。利用周末的时间，捣鼓毕设。这样一来，做大数据，好的CPU，大的内存必不可少；做深度学习，大显存的显卡必不可少。于是决定自己装台机器。深度学习需要什么样的GPU？NVIDIA 部分GPU的技术参数：如何选...

2019-03-10 17:10:54 1525

原创 keras train_on_batch中合理使用callback进行tensorboard可视化

train_on_batchreturnsScalar training loss(if the model has a single output and no metrics)or list of scalars (if the model has multiple outputsand/or metrics). The attribute model.metrics_names ...

2018-12-21 15:51:46 6784

原创模型训练batch数据抽样

自定义DataGenerator生成器，结合佛如循环以及yield来产生数据但是以下代码暂时不能保证每个epoch，数据有且仅有一次参与训练以下代码摘自：https://github.com/yongxuUSTC/sednnimport numpy as npclass DataGenerator(object): def __init__(self, batch_siz...

2018-12-20 16:24:01 2546

原创随机森林的进一步思考

非数值型特征首先，对于非数值列，肯定得想办法处理为数值型或者onehot编码。sklearn中，DictVectorizer可以做这件事：DictVectorizer implements what is called one-of-K or “one-hot” coding for categorical (aka nominal, discrete) features. Categ...

2018-11-28 11:26:16 2035

原创 pyhon中使用librosa处理音频数据

stage 1jupyter中“浏览”音频：import IPython.display as ipd# TO playipd.Audio('./noisex-92/001.wav')librosa官网demo：from __future__ import print_functionimport librosa# 1. Get the file path to the...

2018-11-27 21:29:36 4857

原创 python错误记录

numpy会限制字符串长度ctpn = np.array(ctpn, dtype=str) # np会截取长度比如说，line_split[1] = line[1]， line[1]长度超过32的，都会截断stackoverflow,有人这样说：NumPy will use the “U” dtype, which is indeed UTF-32 (4 bytes). T...

2018-11-25 09:21:24 826

原创（六）：Flink 编程模板，Batch 示例，远程运行flink作业，CDH中HADOOP_CLASSPATH

java模板doc 地址：https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/java_api_quickstart.html。新建一个目录，在该目录下:curl https://flink.apache.org/q/quickstart.sh | bash -s 1.6.1导入IDEA中一看，有...

2018-11-15 14:43:29 4629 1

原创 python3版本的flask环境，使用Python 和 Flask实现restful服务

错误做法1. 在搭建py3的flask虚拟环境时，virtualenv --no-site-packages py3flask报错：virtualenv ImportError: cannot import name _remove_dead_weakref加上了参数–no-site-packages，这样，已经安装到系统Python环境中的所有第三方包都不会复制过来，这样，我们就得到了一...

2018-11-13 16:12:07 3490

原创 2018NIMA_ Neural Image Assessment阅读笔记

前言笔记最初是在有道云做的，没用markdown编写，时间原因，前面先上笔记截图吧。不影响阅读。有时间补上文字版。笔记截图文字（未补图）While technical quality assessment deals with measuring low-level degradations such as noise, blur, compression artifacts...

2018-11-13 14:21:12 1833

原创记一次随机森林小实践

代码是从Jupyter Notebook导出来的过程中借鉴了些的数据清洗写法，有时间再补充。好记性不如烂笔头，免得下次又导出查语法。py版本# -*- coding: utf-8 -*-# @Time : 18-11-1 上午10:43# @Author : wanghai# @Email : # @File : testt.py# @Software: PyC...

2018-11-01 11:13:38 968

原创记困扰很久的pytorch加载模型OOM，python import执行流程，python“懒运行”,whindows控制ubuntu远程桌面

前提：cudnn已装，7.0.5cuda：9.0.716conda create -n tfgpu16 Python=3.6conda install tensorflow-gpu==1.6.0

2018-10-26 13:03:00 1956

原创 keras gpu的问题

官方这样说道如果是tensorflow、cntk作为后端，那么会自动检测theano可以手动设置但是我这的速度，让人怀疑并没有运行在gpu上（一张图，运行时间近10秒）尝试运行时指定CUDA_VISIBLE_DEVICES=0 python demo.py 运行时间无变化显式设置backendimport keras.backend.tensorflow_backe...

2018-10-24 19:15:09 2141

原创 Spark Structed Streaming的一些主要特性及与Spark Streaming之间的对比

Spark Streaming众所周知，Spark Streaming中的数据结构是Dstream，是对RDD的进一步的封装。Spark Structed Streaming对比

2018-10-20 22:02:32 5298 1

原创（五）Flink小demo，java+scala，SBT+Maven，socket拒绝访问

Demo-Scala_SBT使用SBT构建flink的Scala项目：1.新建一个scala-SBT项目2.Next目前idea使用的sbt版本为0.13.X系列与我本地的1.0.0版本不同，但是不要紧，不影响执行命令时，会使用本地的SDK。【官方目前主要维护的版本有两个：0.13.X和1.X。需要注意的是，IDEA上的SBT插件暂时是随着0.13.X系列更新的，而我本地是1.0.0】...

2018-10-05 23:37:02 2021

原创（四）： Flink1.6.1 standalone集群模式安装部署，几个常用参数配置

文章目录NameNode检查点异常Flink1.6.1安装前提配置Flink配置master节点JVM内存slavestaskmanager.numberOfTaskSlotsjobstore.cache临时I/O目录启动集群将JobManager / TaskManager实例添加到群集Maven依赖参考NameNode检查点异常安装flink之前，观察到一个NameNode检查点异常：...

2018-10-03 21:50:02 2351

文章目录一、DELETED1-1 业务背景、业务场景、业务模式1-2 数据峰值、需求二、难点2-1 数据孤岛2-2 不同数据的定制化数据抽取方案2-3 数据完整性、安全性2-4 单点故障2-5 其他三、架构(粗略)3-1 架构图总览3-2 数据采集3-2-1 分布式消息队列KafkaRabbitMQRocketMQ几种消息中间件的比较3-2-2 日志收集flume + kafkalogstash ...

2018-10-01 16:53:40 7790

原创（三）：Flink数据流编程模型

前言仍然是学概念，以下大部分是对官方doc的翻译，但是也会有些个人的理解（主要是对比Spark），以及查找的一些解决自己的一些疑惑相关资料。从Flink 的数据流编程模型和分布式运行环境的基本概念开始学习会对您了解其他部分的文档有帮助，包括安装以及编程指南。强烈推荐先阅读这两部分文档。数据流编程模型抽象级别Flink提供了不同的抽象级别以支持开发流式、批处理等应用。最底层级的抽象仅...

2018-10-01 16:41:30 1540

原创（二）：Flink概述，Flink如何支持批流处理，程序流程

文章目录前言Flink能做什么选择微批处理还是实时处理计算流程（组件）TODO：容错机制的类比、计算资源调度的类比Flink如何支持批流处理参考前言以下都尽量对比Spark（或者大数据生态的其他技术）进行理解Flink能做什么支持批处理交互式处理实时流数据处理支持用SQL分析支持机器学习数据处理后的托管状态（managed state）以及仅一次交付（exactly-once...

2018-09-30 15:11:44 4728 1

原创（一）：小白的Flink学习计划以及进度表

文章目录学习计划第一阶段看视频看博客官方doc第二阶段看书看英文博客定期研究某一主题大一点的demo或者实践第三阶段源码正在开发的特性 || 会议进度表第一阶段视频学习计划以下几个阶段，其实并不是这么界限分明（比如你在学视频时，也完全可以看书看源码什么的），这只是我的大致划分，适合自己的才是最好的。第一阶段看视频在我看来，看视频是快速的、粗略的掌握该技术的某些要点、能做什么事情、架构...

2018-09-30 15:10:53 1932 3

原创实时机器学习系统调研

文章目录前言难点实时机器学习的分类[^1]对应部分开源技术MahoutSpark mlibStormFlinkML其他，是否实时未知Apache SystemMLMADlibPredictionIO实时推荐系统参考前言我把实时机器学习理解为两种情况：1、实时出结果：这时使用的依然是离线训练好的模型，静态的模型，只是该模型需要对实时流入的“测试”集做出响应，给出模型的计算结果。很多时候，...

2018-09-18 23:37:37 3461

原创 kafka(三)：数据生产流程，数据复制与Replica Failover

数据复制kafka中，每一个partition，有一个leader（所以集群并不是一定只有一个leader，可能有多个leader），其他follower去拉取数据。考虑到数据的一致性，Kafka中，消费者只能读取被commit的数据，因为如果允许消费者读取非commit的数据，考虑消费者1读取机器A中的数据，而该数据只有A和leader中有数据，其他flower还没与pull复制，这个时...

2018-09-06 03:46:14 620

原创 kafka(二)：测一测各种参数的合适值，性能优化，生产者消费者实战

文章还在进一步整理中。。。写在前面kafka权威指南很久前已经看完了。今天打算根据所学到的知识进行一些基准测试和调优。本篇文章侧重实践+少量源码分析+部分原理分析，更多的原理分析、理解放在下篇文章中【实战过程中，脑海中冒出了太多的疑惑和想解决的问题，我认为消息中间件比之前学习的大数据生态的一些组件要复杂些，等校招拿了offer，】。另外，由于无人指导，文章中的测试或者结论，皆为个...

2018-09-04 23:06:50 1869

原创 hive任务，一些map长时间无法结束

多线程同步写ES切分文件在这篇文章中使用代码切割文件，这里尝试使用split命令切分文件。split -l 250000 all_rate.csv 25万行为分界线分割文件import org.elasticsearch.action.bulk.BulkRequestBuilder;import org.elasticsearch.client.transport.Tra...

2018-08-20 23:51:17 5300

原创 Elasticsearch数据全量导入HBase，scroll的正确使用姿势，HBase数据到Hive

1、代码相关文章： elasticsearch数据到hive、es-hadoop6.3.0 Hbase Java API简单实践（附源代码解释）按照惯例，先上代码（代码还有很多可以优化的地方，待正式工作了，有了更海量的需要处理的数据，更复杂的应用场景，我再回来更新此文。）只贴出Es用scroll方式读取数据以及批量写入HBase的核心代码，其他工具类、方法，比如es、HBase...

2018-08-16 22:31:57 2999 1

原创 ElasticSearch多线程写入实战（一）多线程同步异步写入ES,模拟hadoop文件拆分处理,join与CountDownLatch的区别，多线程读写小练习

数据预处理1、网站爬取数据，写为csv 2、添加表头 sed -i ‘1i\时报错： sed: -i may not be used with stdin mac中应该写为：【mac自带的sed命令，是基于bsd的，所以与Linux-like下常用的gnu不一样】sed -i &amp;amp;amp;amp;amp;amp;amp;quot;&amp;amp;amp;amp;amp;amp;amp;quot; '1i\insert value here'

2018-08-09 00:47:30 7979

原创 elasticsearch数据到hive、es-hadoop6.3.0

同一模块中日志输出到不同文件elasticsearch数据到hive思路1思路2安装ES-hadoop添加jar包到hivees数据导入到hive的最基础设置es数据导入到hive进阶之mapping设置es数据导入到hive进阶之array相关文章参考同一模块中日志输出到不同文件需求：项目的同一个子模块下，已经配置过日志输出，现在...

2018-08-06 00:17:44 7007 2

李兴华oracle学习笔记（全）PDF

个人感觉李兴华老师的讲课风格和马士兵老师的风格很像，这个笔记是课堂上李兴华老师敲的，非常的详细。很适合平常查询以及复习用。不想花积分的朋友可以留言，我可以私发。

2017-02-04

Stream Processing with Apache Flink完整书签高清pdf和epub版，以及评价超高的Streaming Systems

保证完整，目前网上找个完整的不容易（2019-06-13）; Stream Processing with Apache Flink（Flink布道者）完整书签高清pdf以及epub; 以及评价超高的Streaming Systems(谷歌大脑Tyler Akidau) ; 以及18年10月Flink技术沙

2019-06-13

Flink Forward 201809 PPT berlin

2018年09月03日至05日在 Berlin 进行的 flink forward 会议上的PPT。这里共44个演讲的PPT，1000页左右PPT。资料来源于互联网，下载于“过往记忆”。

2018-10-03

TensorFlow实战PDF+代码，TensorFlow实战Google深度学习框架+代码

《TensorFlow实战》希望用简单易懂的语言带领大家探索TensorFlow（基于1.0版本API）。在《TensorFlow实战》中我们讲述了TensorFlow的基础原理，TF和其他框架的异同。并用具体的代码完整地实现了各种类型的深度神经网络：AutoEncoder、MLP、CNN（AlexNet，VGGNet，Inception Net，ResNet）、Word2Vec、RNN（LSTM，Bi-RNN）、Deep Reinforcement Learning(Policy Network、Value Network)。此外，《TensorFlow实战》还讲解了TensorBoard、多GPU并行、分布式并行、TF.Learn和其他TF.Contrib组件。《TensorFlow实战》希望能帮读者快速入门TensorFlow和深度学习，在工业界或者研究中快速地将想法落地为可实践的模型。购买地址：https://item.jd.com/12125568.html 《TensorFlow：实战Google深度学习框架》为使用TensorFlow深度学习框架的入门参考书，旨在帮助读者以更快、更有效的方式上手TensorFlow和深度学习。书中省略了深度学习繁琐的数学模型推导，从实际应用问题出发，通过具体的TensorFlow样例程序介绍如何使用深度学习解决这些问题。《TensorFlow：实战Google深度学习框架》包含了深度学习的入门知识和大量实践经验，是走进这个更新、更火的人工智能领域的推荐参考书。购买地址：https://item.jd.com/12125572.html

2017-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人