研发成长之路
文章平均质量分 86
测试转研发
Q博士
原先的技术宅,现在的生活宅,心态决定年龄
展开
-
Spark成长之路(12)-Gradient Descent
机器学习理论之一原创 2017-08-02 11:39:11 · 929 阅读 · 0 评论 -
Spark mlib学习指南
翻译http://spark.apache.org/docs/latest/ml-guide.html机器学习库MLib指南MLib是运行在spark上的机器学习库,目的是为了方便使用scala语言进行机器学习。提供如下功能:ML算法:提供分类、回归、聚类和协作筛选等常用机器学习算子功能:特征提取、转换、降维,和选择管道线:构建、评估和调优工具缓存:保存和加载算子、模型和管道线工具集:线原创 2017-03-23 16:05:21 · 3101 阅读 · 0 评论 -
基于sanic打造python web框架
0x00 Why为何做这件事,在去年的一个项目中,算法同学要使用在线模型训练,不得不是用python的tf框架,这样我们不得不是python web框架,当时因为团队里面没人懂python相关的知识,只是简单的用tornado搭建的一个。但是在后期使用过程中,压测发现了tornado在低耗时的接口不够稳定,波动比较大。我们的接口一般20ms,但是经常波动到40ms,并发其实也不大。所以经历了通过...原创 2019-03-06 17:24:11 · 5302 阅读 · 0 评论 -
利用pyinstaller打包python项目发布到线上
问题抛出点3月份搭建的python web框架,在一个项目中落地后,在部署的时候还是稍显麻烦,虽然用了pipenv的方式管理依赖,但是在线上的时候还得要求线上环境可以连外网,但是一般线上环境会有一些隔离,而且上线前也会有一些python依赖要去安装,这其实还不够极致。所以需要一种能把python项目打成bin文件的方式,所有依赖的包都集成在这个bin文件中,直接上线bin文件就可以了。如果这个能...原创 2019-05-08 19:32:19 · 2971 阅读 · 0 评论 -
定位python内存泄漏问题
记一次 Python 内存泄漏的排查背景上周使用我的python web框架开发的第二个项目上线了,但是没运行几天机器内存就报警了,8G内存使用了7G,怀疑有内存泄漏,这个项目提供的功能就是一堆机器学习模型,对历史数据进行训练,挑选出最优的5个模型,用作未来数据的预测,所以整个项目由着数据量大,运行时间长的特点,就是把策略的离线工作搬到了线上。定位内存泄漏第一步:确定是否有内存泄漏上...原创 2019-07-10 22:57:02 · 17743 阅读 · 3 评论 -
pyinstaller打包机器学习库若干坑
参考文档Recipe MultiprocessingPyinstaller exe keeps opening itself背景之前调研的pyinstaller打包bin的方案进入落地阶段,之前调研文章见利用pyinstaller打包python项目发布到线上。之前实验的对象是个很简单的web服务,没有过多的依赖其他包,这次落地的项目里面使用了很多的机器学习库,所以落地过程中还是稍显麻烦...原创 2019-07-16 16:27:17 · 6919 阅读 · 1 评论 -
python脱机安装依赖包
背景部署到线上的服务不能提供外网权限,不能通过访问公共pypi来拉取依赖包,那就只能去部署一个私有的python仓库,搭建不麻烦,维护却麻烦,所以作为业务开发人员,要是有个方法,能把在开发阶段开发机上的依赖包,打包上线到线上机器,然后本地安装到线上机器,也是一个不错的方法生成依赖配置因为我们是pipenv工具管理依赖,而pipenv支持生成requirements.txt文件pipenv ...原创 2019-07-16 23:15:24 · 1290 阅读 · 0 评论