自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

bymain的博客

Spark,Flink全栈,机器学习,深度学习,CV,OCR,SQL,流处理,分布式存储

  • 博客(84)
  • 收藏
  • 关注

原创 scala类对象null值检测并填充

scala类对象null值检测并填充。

2023-04-12 20:50:17 518

原创 解决beeline -e 无法执行多条sql 问题

beeline -e 执行多行sql 语法

2022-07-22 20:53:18 2937 1

原创 java String类型日期转换成yyyy-MM-dd格式的Date类型

工具类 实现 Java String类型日期转换成指定格式的Date类型输出。

2022-07-22 20:12:01 4312

原创 MySQL启动报错The server quit without updating PID file

具体报错如下:Starting MySQL. ERROR! The server quit without updating PID file (/opt/homebrew/var/mysql/QdeMacBook-Pro.local.pid).解决方案:linux下:sudo chmod -R 777 /usr/local/var/mysql/重启:systemctl restart mysqldMac:homebrew安装的。chmod -R 777 /opt/homebrew/var

2021-12-01 16:36:17 1398 1

原创 docke官网下载docker desktop太慢解决方法

直接从这里的阿里云镜像站点下就好了, csdn一堆要积分的,无奈之举。http://mirrors.aliyun.com/docker-toolbox/mac/docker-for-mac/

2021-11-30 00:01:34 2021 1

原创 flink随计

POJO类型:如果一个数据类型满足如下条件的话,就被认为是一个POJO类型:  1、class是public的或者是独立的(不是非static内部类)  2、class有无参构造函数  3、所有class中的非静态的序列化问题: <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artifactId>

2021-01-22 22:57:15 167

原创 使用BeanUtils.populate完成json对象复制到Java Bean

**实现步骤,**1.new Java Bean :val entitys = new RedisCacheEntity2.通过net.sf.json工具的JSONObject方法解析输入JSON,强转为Map val map: util.Map[String, Object] = JSONObject.fromObject(inputJson).asInstanceOf[util.Map[String, Object]]通过 将map内容拷贝到Bean对象 BeanUtils.po

2021-01-19 22:10:47 892

原创 Flink scal api 不支持RichAsyncFunction

问题: 在开发Scala 的异步io 的时候遇到点问题,Scala 中没有RichAsyncFunction(Rich类有open方法,可以做初始化操作现状: 目前确实不支持解决方法:在scala 中使用Java中有 的方法,然后再将流转换成Scala Stream, 目前只想到这样做比较笨重的方法,希望大家多多建议。第一步: 导入Java的包,并重命名重点是:import org.apache.flink.streaming.api.datastream.{SingleOutputS.

2021-01-11 21:59:34 345

原创 sqoop 并行抽取数据,同时解决数据倾斜

这里写自定义目录标题Sqoop 并行抽取数据根据sqoop源码的设计,我们可以使用--query语句中添加自增ID,作为split-by的参数,与此同时通过设置的自增ID的范围可以设置boundary。。Sqoop 并行抽取数据通常可以指定split-by 对应的zizengID 列,然后使用–num-mappers或者-m指定map的个数,即并发的抽取进程数量。但是有时候会碰到很多的表没有添加自增ID或者,整数型的主键,或者 主键分布不均,反而会拖慢整个job的进程。根据sqoop源码的设计,我们可

2020-09-01 22:55:59 1730

原创 HDFS命令批量创建文件夹和文件

批量成绩文件夹:hadoop fs -mkdir -p /user/wtf/hivedata/temp/201912311001/d={27…30}/h={10…17}/m5={0…5}/批量创建文件:hadoop fs -touchz /user/wtf/hivedata/temp/201912311001/d={27…30}/h={10…17}/m5={0…5}/{1…3}.orc最终...

2019-12-31 10:52:56 3228

原创 批量请求高德地图API解析经纬度

使用高德逆地理编码批量请求解析经纬度到具体的位置信息项目中涉及到要根据经纬度解析实际的地理位置,所以就需要搞一把。纵观出申请一个企业开发者账号,每天的api调用就可以达到300w次了,开心。个人开发者和企业开发者的调用限制:这是注册地址: https://lbs.amap.com/dev/id/chooseweb API调用参数下面是用python写的一个demo,可以参考一下...

2019-12-24 17:47:55 3158 1

原创 Keras Callback之RemoteMonitor 使用

通过名字可以很清楚的知道这是一个回调函数。官网定义:https://keras.io/callbacks/#remotemonitor实际效果:使用步骤参见这个步骤:http://vra.github.io/2018/03/18/keras-callbacks-remote-monitor/其中对于Python3 用户来说脚本 api.py 中有两处需要更改:第一处:开始导入...

2019-09-25 16:15:33 576

原创 Pandas Profiling EDA 的一大利器

项目地址:https://github.com/pandas-profiling/pandas-profiling安装方式:pip:pip install pandas-profilingpip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zipconda:conda inst...

2019-08-19 14:29:30 913

原创 使用espnetv2 训练分割任务

EdegNets这个项目中有很多值得我们学习的亮点:例如训练逻辑:向小分辨率,然后大分辨率transform等学习率控制策略:Hybird等网络架构比较轻便现在我们需要使用EdgeNets 訓練二分类分割任务:原项目:https://github.com/sacmehta/EdgeNets/blob/master/README_Segmentation.md根据原git项目,需要作...

2019-07-28 14:20:13 758 2

原创 anaconda镜像源被封后,windows下pytorch安装 成功

最近的一台新win本需要装torch,试了一下之前的方法都不行了,现在贴出可以的教程:配置pip源:https://blog.csdn.net/zheng_lan_fang/article/details/786123921):在windows文件管理器中,输入 %APPDATA%回车2):会定位到一个新的目录下,在该目录下新建pip文件夹,然后到pip文件夹里面去新建个pip.ini...

2019-06-07 15:50:38 1074 1

原创 tensorflow object detectin api 训练mask rcnn 出错

训练信息:训练模式:分布式训练 Tesla p100 * 42分类配置模板:mask_rcnn_resnet101_atrous_coco_2018_01_28/pipeline.config使用预训练模型训练步数:20000具体报错信息:2.Traceback (most recent call last): File "object_detection/model_main...

2019-05-09 17:07:41 585

原创 解决集群服务器异构资源下的tensorflow 多版本冲突问题

解决:根据服务器上上的计算资源类型进入不同的的虚拟环境后再执行相应的脚本以 tensorflow object detection api 的模型导出部分脚本化为例:高亮部分就是判断当前主机是否有GPU,有就进入tensorflow-gpu版本的虚拟环境,不然就是进入cpu版本的环境#!/bin/bashshow_usage=“args: [–pipeline_config_path, ...

2019-04-28 14:31:18 265

原创 启动spark- sqI时:Error: A JNI error has occurred, please check your installation and try again Exceptio

错误信息:Error: A JNI error has occurred, please check your installation and try againException in thread “main” java.lang.NoClassDefFoundError: org/slf4j/Logger解决:命令行临时导入下面这个变量,或者配置到环境变量中,即可。 #添加Had...

2019-04-18 09:56:08 5136

原创 导出hdfs上tensorflow object api 生成的ckpt 为pb 文件

参考:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/exporting_models.md设置参数 INPUT_TYPE=image_tensor PIPELINE_CONFIG_PATH=hdfs://master:9000/root/tfData/pipeline.co...

2019-04-15 16:07:56 436

原创 tensorflow 分布式结合hdfs 报错:No lease on File does not exist. Holder DFSClient_NONMAPREDUCE

tensorflow 分布式脚本启动方式:https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/hadoop.md在分布式程序执行代码中使用multiprocessing 分别启动ps, master, workermultiprocessing.Process(target=star...

2019-04-15 15:56:56 5041

原创 修改darkent预测输出的标注框显示效果

使用darkent 训练模型后测试,标注效果不是很好看,随做了以下处理。修改之前,测试输出修改darkent 标注框的粗细以及label的粗细定位到代码文件darknet/src/image.c文件使用vim编辑该文件,修改文件中 的void draw_detections(image im, detection *dets, int num, float thresh, char *...

2019-03-14 17:13:32 2239 2

原创 tensorflow object detection API multi-GPU采坑

tensorflow object detection API 使用总结:1. faster-rcnn 训练训练脚本:python train.py \--logtostderr \--pipeline_config_path=&amp;quot;PATH WHERE CONFIG FILE RESIDES&amp;quot; \--train_dir=&amp;quot;PATH WHERE MODEL DIRECTORY RESIDE...

2019-03-06 10:54:44 2280

原创 ImportError: libSM.so.6: cannot open shared object file: No such file or directory

系统:Cent os 7.6python版本:3.6opencv-python版本:4.0问题过程:使用pip install opencv-python 安装opencv, 安装完成后导入 cv2报错: “ImportError: libSM.so.6: cannot open shared object file: No such file or directory”解决: ...

2019-02-20 13:31:54 2386

原创 模型训练配置文件修改,使用linux命令

这只是一种方法通过调用脚本方式替换配置文件中的对应选项,另一种就是通过看清源码动态传入参数:Linux 脚本:#!/bin/bash#/usr/bin/sed -i s"?PATH_TO_BE_CONFIGURED?${1}?g" ${2}/usr/bin/sed -i s"?PATH_TO_BE_CONFIGURED?${1}?g" ${4}/usr/bin/sed -i s"?B...

2019-01-20 16:14:19 557

原创 keras模型训练报错: AttributeError: 'list' object has no attribute 'set_model'

错误信息:AttributeError: ‘list’ object has no attribute ‘set_model’根据错误提示:错误代码位于如下model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, callbacks=[checkpoint,callbacks],...

2019-01-16 11:35:21 14188 2

原创 TypeError: can't pickle dict_values objects 解决:

使用tensorflow object detection API 训练自己的数据时报了如上错误:根据错误依次找到了如下内容:Caused by op 'PyFunc_3', defined at: File "object_detection/model_main.py", line 109, in &lt;module&gt; tf.app.run()定位到这个代码里面的4...

2019-01-08 19:57:45 3852

原创 cv2 图像处理时:AttributeError: 'NoneType' object has no attribute 'shape'

原因:1:图片不存在(路径不存在, 路径包含中文无法识别)2.读取的图片和默认参数匹配(默认读取的是3通道的彩色图),读取到的图片是灰度图3.暂时解决: image = cv2.imread(imgFile) if isinstance(image, np.ndarray): pass else: ...

2018-12-28 21:42:12 11600 1

原创 生成tfrecords时报错:TypeError: None has type NoneType, but expected one of: int, long

xml文件转化成tfrecord格式出现错误TypeError: None has type NoneType, but expected one of: int, long具体报错内容如下: in csv2tfrecord(csv_path, imageDir_path, tfrecord_path)30 ‘image/object/bbox/yma...

2018-12-26 10:33:28 7621 5

原创 tensorflow object_detection coco API安装错误记录

tensorflow object_detection coco API 安装:make时报错:分别安装gcc 和Cpython 解决:对应错误信息: gcc:unable to execute 'gcc': No such file or directory 解决: yum install gcc Cpython:gcc: 错误:pycocotools/_mask.c:没有那个文...

2018-12-24 10:37:42 773

原创 tensorflow model模块 百度盘下载

不知道为啥,不好下感觉,好不容易下下来了,就保存到网盘吧。链接:https://pan.baidu.com/s/1epi9nNipAs8l7VHSdONZaQ提取码:0tpm

2018-12-20 17:04:01 6136 71

原创 配置pip高速稳定的镜像源

其实只要知道在哪里配置就行不了, 如果具体的源用着不爽可以随时更换windows下:https://blog.csdn.net/zheng_lan_fang/article/details/786123921):在windows文件管理器中,输入 %APPDATA%(2):会定位到一个新的目录下,在该目录下新建pip文件夹,然后到pip文件夹里面去新建个pip.ini文件(3):在新建的...

2018-12-12 10:46:59 638

原创 项目中使用keras 遇到的一些问题?

前端反复模型调用时出错TypeError: Cannot interpret feed_dict key as Tensor: Tensor Tensor(“Placeholder_1:0”, shape=(32,), dtype=float32) is not an element of this graph.解决方法:在每次模型调用时执行: 添加下面第二行代码即可。tf.loggi...

2018-12-11 15:04:46 515

原创 by: java.lang.NoSuchMethodError: scala.collection.Iterator.aggregate(Ljava/lang/Object;Lscala/Functi

by: java.lang.NoSuchMethodError: scala.collection.Iterator.aggregate(Ljava/lang/Object;Lscala/Functi在使用spark on succinct时爆出如上错误:解决方法,将succinct jar包升级到 0.1.7, 或者将spark中的scala jar降级到2.10.*参考:http://...

2018-10-15 20:53:41 336

原创 神经网络优化方法

1.神经网络的优化?1.1 为什么要优化? 效率不高,学习效果差1)解决: 训练数据 70%,测试数据 30% 评测标准: 分类:Accuracy 回归:R2 score 不均衡样本: F1 score 过拟合:模型在训练集上表现不错,但是在测试集上泛化能力不足 欠拟合:模型学习不够充分,模型效果差2) 为什么要特征标准化? 加快模型的学习,减少模型学习过程中的梯度震...

2018-10-13 21:50:15 468

原创 spark on Alluxio 的使用

http://www.alluxio.org/docs/1.8/en/Running-Spark-on-Alluxio.htmlAlluxio 解决的问题:现有的streaming architecture 的bottleneck是:1.hdfs 存储系统位于远端的服务器:文件的输入输出会引起大量的网络延迟,数据的更改编程流处理的一个bottleneck。2.HDFS使用普通的磁盘,因...

2018-10-12 17:55:44 1247

原创 tensorflow failed call to cuInit: CUDA_ERROR_UNKNOWN

使用nvida GPU 跑keras 代码时报了如下错误:“ tensorflow failed call to cuInit: CUDA_ERROR_UNKNOWN ”软件版本:cuda 9.0 tensorflow1.8 cudnn7-devel ubuntu16.04分别尝试了如下解决方法:因为;nvidia-smi 和 nvcc -V ...

2018-09-27 21:01:59 3555 2

原创 keras 训练模型提示“CUDA_ERROR_OUT_OF_MEMORY”

一般在使用shh连接服务器的时候,用GPU训练模型,由于操作习惯问题。终直接在终端用ctrl+z终止训练,此时GPU资源可能未立即释放,下次继续使用时有可能会报例如CUDA_ERROR_OUT_OF_MEMORY这种错误,就是提示显存不够。这时候需要人工来杀死占用GPU显存的进程。这几天碰巧加载有一个较大的模型时,提示显存不足,特此解决:这里就需要通过fuser 找到nivdia对应的程序进...

2018-09-25 23:08:50 2853

原创 kafka 顺序消费, spark streaming exactly-once以及零丢失的一些总结

Kafka:定义: 消息中间件 –&amp;amp;gt;分布式流式平台生产者 sourceBroker channel消费者 sink 正常部署的是: Broker进程(一个机器一个(分布式),一个机器多个(伪分布式))使用场景:Flume--&amp;amp;gt;Kafka--&amp;amp;gt;Spark streaming 实时流式Kafka Streaming特点:发布/订阅实时...

2018-09-16 00:15:07 1643

原创 强化学习初窥----- open AI

open AI: 马斯克 AGI:通用人工智能 The best way to predict the future is to invent it.Gym :强化学习的基本对象:环境:ENV,问题,状态空间,行动空间,奖励,状态转移模型。智能体:AI 算法步骤:初始化环境:循环: 按照策略行动 环境变化,获取反馈 学习(更新策略)http...

2018-09-15 23:23:04 501

翻译 Alluxio 部分阅读

现有的streaming architecture 的bottleneck是:1.hdfs 存储系统位于远端的服务器:文件的输入输出会引起大量的网络延迟,数据的更改编程流处理的一个bottleneck。2.HDFS使用普通的磁盘,因此IO操作,尤其是读操作有很高的延迟,spark streaming的executor需要重复的跨集群读操作从HDFS,进一步降低了整体的性能。3.当spar...

2018-09-03 17:20:46 373

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除