2019年01月_javastart

转载 jvm---G1、GC 日志及分析

由匿名 (未验证) 提交于 2018-06-08 15:07:57登录或注册以发表评论 6 次浏览GC 日志及分析实例：Roctetmq jvm 配置JAVA_OPT="${JAVA_OPT} -server -Xms256m -Xmx256m -Xmn128m"JAVA_OPT="${JAVA_OPT} -XX:+UseG1GC -XX:G1HeapRegionSize=1...

2019-01-31 10:52:35 1500

原创中国车牌数据集

虽然国内csdn有好多，都是收费的，也不清楚质量怎样，另外数据也不会很多。找了好长时间，最后一个群里好友推荐，在github 搜索 CCPD，确实不错。谢谢好友推荐第二车牌训练集：太大还没有下载看怎样，网址： http://vision.princeton.edu/projects/2010/SUN/SUN397.tar.gz...

2019-01-30 19:43:26 27392 22

转载模型调参：分步骤的提升模型的精度(cnn)

机器学习AI算法工程前天机器学习AI算法工程公众号： datayxhttps://mp.weixin.qq.com/s/Eu31_8E29msmwSmjiI57QQ 一、问题描述当我们在处理图像识别或者图像分类或者其他机器学习任务的时候，我们总是迷茫于做出哪些改进能够提升模型的性能（识别率、分类准确率）。。。或者说我们在漫长而苦恼的调参过程中到底调的是哪些参数。。。...

2019-01-30 08:41:21 16073 3

转载 TensorFlow 性能优化之 Performance Guide

目录 Performance Guide 1. 通用的一些优化技术 1.1 输入管道优化 1.1.1 在 CPU 上进行数据预处理 1.2 使用 tf.data API 1.3 解码裁剪运算 1.4 使用大文件 1.2 数据格式 1.3 常用的融合op 1.3.1 融合 batch norm 1.4 R...

2019-01-26 21:01:01 694 1

转载 Hadoop解决小文件存储思路

2018年09月27日 09:20:38 拾荒路上的开拓者阅读数：6111.什么是小文件小文件一般是指明显小于Hadoop的block size的文件。Hadoop的block size一般是64MB，128MB或者256MB，现在一般趋向于设置的越来越大。后文要讨论的内容会基于128MB，这也是CDH中的默认值。为了方便后面的讨论，Fayson这里假定如果文件大小小于block ...

2019-01-25 15:47:24 258

转载 TensorFlow - tf.train.batch 函数

tf.train.batch 将数据 batch 化.定义：函数 tf.train.batch:tf.train.batch(tensors, batch_size, num_threads=1, capacity=32, enqueue_many=False,...

2019-01-25 12:41:42 1796

转载 jvm---5、G1 GC 日志及分析

jvm---5、GC 日志及分析由匿名 (未验证) 提交于 2018-06-08 15:07:57GC 日志及分析实例：Roctetmq jvm 配置JAVA_OPT="${JAVA_OPT} -server -Xms256m -Xmx256m -Xmn128m"JAVA_OPT="${JAVA_OPT} -XX:+UseG1GC -XX:G1HeapRegionSize=16...

2019-01-23 13:44:03 1620

转载 Tuning G1GC For SOA

Tuning G1GC For SOA 时间比较老，并且是jdk1.7,但是测试比较详细August 31, 2016 by Abhay Kumar Leave a CommentGarbage-First Garbage Collector (G1GC) is a new GC Algorithm introduced in later version of JDK 1.7. P...

2019-01-22 17:19:57 944

转载 Tuning the JVM – G1GC Garbage Collector Flags for Minecraft

https://aikar.co/2018/07/02/tuning-the-jvm-g1gc-garbage-collector-flags-for-minecraft/July 2, 2018 in Java, Minecraft, System AdministrationIntroductionAfter many weeks of studying the JVM, Flag...

2019-01-22 16:17:28 1782

转载 TensorFlow - 构建数据管道(Pipeline)及 tf.data 与 feed_dict 对比[译]

原文： Why tf.data is much better than feed_dict and how to build a simple data pipeline in 5 minutes.1. feed_dict 和 tf.data 对比Tensorflow 入门手册中一般介绍的是采用 feed_dict方法，在tf.Seession.run() 会话运行或 tf.Te...

2019-01-22 12:19:03 1387

转载 Python中plt.imshow(image)无法显示图片解决办法

2018年11月15日 19:40:45 sy20173081277 阅读数：1931.如果无法显示出图片如下图：但是明明plt.imshow()可以打印出来图像的数字形式，但是就是无法可视化的显示出来，这个时候有一种解决的办法如下所示：可能是调用的库的中不同模块导致的问题。 matplotlib通过pyplot模块提供了一套和MATLAB类似的绘...

2019-01-17 12:13:00 7383 1

转载实现 TensorFlow 多机并行线性加速

2017-9-18 16:53| 发布者: 炼数成金_小数| 查看: 21988| 评论: 0|原作者: 王佐|来自: 天数科技摘要: 深度学习训练需要海量的数据，这就需要超大规模参数的网络模型拟合。如果训练数据不足，会造成欠拟合；如果网络模型参数太少，只会得到低精度的模型。目前常见网络模型参数已经上亿，参数大小达到数GB。中给出了训练 ... 网络模型深度学习分布式 T...

2019-01-17 11:20:23 1607

转载基于 Python 使用 CNN 实现身份证汉字和数字识别

摘要：背景与目标光学字符识别 ( Optical Character Recognition, OCR ) 是将图像中的手写或打印文本转换为机器编码文本，以获取图像中文字及版面信息的过程。其目的是将图片中的文字识别出来，以便进一步对文字进行处理。背景与目标光学字符识别 ( Optical Character Recognition, OCR ) 是将图像中的手写或打印文本转换为机...

2019-01-14 19:42:03 4601 5

转载 tensorflow 实现端到端的OCR：二代身份证号识别

最近在研究OCR识别相关的东西，最终目标是能识别身份证上的所有中文汉字+数字，不过本文先设定一个小目标，先识别定长为18的身份证号，当然本文的思路也是可以复用来识别定长的验证码识别的。本文实现思路主要来源于Xlvector的博客，采用基于CNN实现端到端的OCR，下面引用博文介绍目前基于深度学习的两种OCR识别方法：把OCR的问题当做一个多标签学习的问题。4个数字组成的验证码就相当于...

2019-01-14 19:25:28 5621 1

转载 tensorflow 分布式数据并行同步训练 between-graph 实例 (1）

#coding=utf-8 #python example.py --ps_hosts=127.0.0.1:2222 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ps --task_index=0 --issync=1#python example.py --ps_hosts=127.0.0.1:2222 --worker_...

2019-01-10 14:38:03 578

转载数据存储text转parquet及引发的OOM问题

1.数据转parquet的后效果 table1为textfile格式存储的表，分区20161122转换之前大小约400M,分别以parquet无压缩，parquet snappy压缩和parquet gzip压缩，转换到parquet格式的表table1_parquet的20161122,20161123,20161124三个分区。Java代码（1）insert in...

2019-01-03 17:07:50 1661

转载使用Hive SQL插入动态分区的Parquet表OOM异常分析

1.异常描述当运行“INSERT ... SELECT”语句向Parquet或者ORC格式的表中插入数据时，如果启用了动态分区，你可能会碰到以下错误，而导致作业无法正常执行。Hive客户端：Task with the most failures(4):Diagnostic Messages for this Task:Error: GC overhead limit exc...

2019-01-03 16:44:27 978

转载 tensorflow性能调优实践

工具篇tensorboard的使用graph的可视化, 以及获取必要的运行时的统计数据, 请参考: 官方教程, 通过对graph以及运行时的统计数据的可视化,我们可以看看了解更多的更加直观的信息. 下图是一个例子:image.png运行时的统计信息统计的是每一个step(或者一次运行)过程中, 每个op的耗时. 结合compute time 图, 我们可以分析一个图中不同...

2019-01-01 18:29:04 2248

转载分布式TensorFlow入门教程

前言深度学习在各个领域实现突破的一部分原因是我们使用了更多的数据（大数据）来训练更复杂的模型（深度神经网络），并且可以利用一些高性能并行计算设备如GPU和FPGA来加速模型训练。但是有时候，模型之大或者训练数据量之多可能超出我们的想象，这个时候就需要分布式训练系统，利用分布式系统我们可以训练更加复杂的模型（单机无法装载），还可以加速我们的训练过程，这对于研究者实现模型的超参数优化是非...

2019-01-01 18:26:20 526 1

张伟的专栏