自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Python 内存泄露问题,详细讲解如何查找问题以及解决方法

上个星期,把之前弄的tensorflow项目部署到线上,真正开始进行评测的时候,发现了还是会有一些问题,而且这些问题还是相对比较严重的,在这里我就先给大家分享一下model_from_json造成的内存泄露问题,以及怎么解决的。一、背景在我的一篇博客中,写了关于tensorflow训练完后model的保存以及借助redis加载到内存形成分并发调用,并且在对模型进行更新的时候只需要更新一台机器即可,有加快模型调用以及方便的作用。感兴趣的可以先去看看我的这篇博客。https://editor.csdn.

2020-05-30 14:43:38 4321 1

原创 Tensorflow多输入模型构建以及Dataset数据构建

多输入模型多适用于问答模型或者对于时间序列模型来说有部分特征是针对样本个体而固定的,不随时间变换而发生改变的情况下。对于模型的输入数据格式来说,有很多种方式,普通的全部数据导入,或者写成生成器等,可以逐批读取数据然后训练模型,但是当你使用tensorflow内置分布式训练,也就是多机多卡模卡MultiWorkerMirroredStrategy的时候,就必须使用Dataset格式。因为Dataset会自动根据batch_size分发数据进行迭代训练。如果对MultiWorkerMirroredStra

2020-05-24 14:00:13 6129 4

原创 实操TF单机模式MirroredStrateg,分布式模式MultiWorkerMirroredStrategy 比较!!

服务器背景一台16核64g(数据存储机,命名tensor101)一台4核16g(命名tensor102)案例背景针对某款手游,观察玩家在7天内的行为,包括在副本,经验,金币,市场等各个方面的表现识别这个玩家是否是脚本玩家。单机模式训练数据量:716392, 7, 18测试数据量:182158, 7, 18本例采用的是LSTM 模型。epochs = 5 # 总轮次batch_size = 1024 # 单次训练batchnum_workers = 1 # 机器个数seque

2020-05-24 13:08:12 1777 2

原创 Python 在大数据处理下的优化(三)DataFrame的生成效率提高4倍!!

今天看标题就知道我们又来谈的是优化,针对pandas的数据结构DataFrame做的优化。当然这种优化更多的是提供给大家一种思路,而不是所有的DataFrame都可以这么转化。废话不多说,我们直接来看今天的主要优化内容。一、DataFrame数据结构做过数据处理这块的应该都知道并且非常熟悉的pandas下最常用的二维表结构,DataFrame。DataFrame自带的各种处理数据的函数给我们复杂的需求带来了很多的便捷,并且在数据量较少的情况下,处理速度都非常快,因此在很多地方都会用到相关的一些函数

2020-05-23 12:21:22 4675 1

原创 tensorflow训练完后模型的保存,储存到Redis,形成快速的并发调用

前言相信有很多人在搞机器学习也好,深度学习也好,最主要的东西都是如何训练出一个好模型,当然应该这样,我也是把最主要的重心放在如何训练好模型上了。但是最近完成了一个深度学习模型的训练后,在部署到线上的时候,却发现考虑少了一些东西。其中一个方面就是如何使得你的模型能够快速的应用到线上?如何使得代码的运行效率更快?因为平时训练都是把模型直接保存在本地,需要的时候就直接读进内存即可。但是如果在实际生产"环境中,怎么可能每调用一次模型就要读一次文件呢?这样运行效率太低了,而且在部署的时候就需要把模型拷贝到各

2020-05-16 15:53:36 3684 35

原创 Python 安装tensorflow,解决报错 Could not find a version that satisfies the requirement tensorflow

如果你用的是python3,那这篇文章可能对你没什么帮助,但是如果是生产环境部署的tensorflow出现了如下这个问题:Collecting tensorflowCould not find a version that satisfies the requirement tensorflow (from versions: )No matching distribution found for tensorflow那可能你遇到的问题跟我遇到的问题是一样的。搞了一天才弄明白问题出现在哪里现在

2020-05-16 11:59:30 6413

原创 Python 多线程+多进程简单使用教程,如何在多进程开多线程

一、Python多进程多线程关于python多进程多线程的相关基础知识,在我之前的博客有写过,并且就关于python多线程的GIL锁问题,也在我的一篇博客中有相关的解释。为什么python多线程在面对IO密集型任务的时候会产生加速作用?为什么python多线程在面对CPU计算密集型任务的时候不仅起不到加速作用,反而加长了计算时间?相关传送门:进程,线程,协程关系:https://blog.csdn.net/qq_35869630/article/details/105747155python线程

2020-05-09 20:24:20 5688

原创 Python 在大数据处理下的优化(二)字符串相加,用 join 比 sum 快20倍!

照例答案写在开头为什么sum要换成join?因为join 速度比sum快好几倍!!如果你是对自己代码运行效率有追求的话,建议换换~下面实际操作一下,看看结果怎么样import pandas as pdfrom time import timedf = pd.DataFrame(zip(range(1000000),['test']*1000000),columns=['a','b'])...

2020-05-05 16:25:18 960

原创 Modin.pandas使用多核CPU加速pandas?Modin.pandas可以代替pandas?看看就知道了

答案先写在开头,免得你们直接拉到下面看结果~modin.pandas 确实能使得一部分函数使用多核cpu进行加速处理,但是现在有些功能还不完善,有些函数还是用的默认pandas处理…具体哪些函数是可以加速的可以往下看看主要测试了apply,groupby,read_csv一、Modin.pandas在讲modin之前,简单介绍一下pandas,pandas主要是python用来处理数据的...

2020-05-05 15:32:03 3990

原创 Python 在大数据处理下的优化(一)用json.loads比eval快10倍!!

eval 跟json.loads 是不一样的函数,是有实现不一样功能的地方,但是在某些地方它们两个函数的功能是一样的,在这个时候如果对执行效率有一定要求的话,建议不要用eval,改用json.loads会有惊喜哦。一、evaleval() 函数用来执行一个字符串表达式,并返回表达式的值。二、json.loadsjson.loads 用于解码 JSON 数据。该函数返回 Python 字段的...

2020-05-04 16:49:32 2562

原创 Redis安装卸载详细教程,顺便看看界面化Redis~

一、RedisRedis 简介Redis 是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库。Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。Redis支持数据的备份,即master-slave模式的数据...

2020-05-04 15:25:32 1978

原创 Python多线程跟GIL锁到底什么关系?看完你肯定有收获

一、多线程线程是操作系统中最小的单位,也是处理器主要消耗者,线程不具备自己的独立资源,一个进程空间中可以同时创建多个线程,并且多个线程之间可以互相操作,一个线程可以启动另外一个线程等,资源也可以共享,线程之间是可以并行运行的(前提是建立在多核CPU,如果是单核则不是真正的并行)。想了解进程,线程,协程之间的关系可以看看我的另外一篇文章:https://blog.csdn.net/qq_3586...

2020-05-01 15:34:47 2126 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除