机器学习工程问题
文章平均质量分 62
新时代深漂农民工
不知名码农
展开
-
TensorFlow2.5.0读取hdfs数据
file_path = "hdfs://worker1:8020/tmp/tfrecord-dnn/train/*.tfrecord" # 一定要三个引号files = tf.io.gfile.glob(file_path)print(files)dataset = tf.data.TFRecordDataset(files)#Example这里就省略了哈parsed_dataset = dataset.map(decode_and_normalize)print(parsed_datase.原创 2021-09-03 14:13:03 · 1696 阅读 · 1 评论 -
2021-08-25
"""Created on 2021.08.25train MM model@author:Jincan"""import jsonimport osimport pandas as pdimport tensorflow as tffrom time import timefrom tensorflow.keras.losses import binary_crossentropyfrom tensorflow.keras.optimizers import Adamimpo.原创 2021-08-25 14:38:23 · 112 阅读 · 0 评论 -
spark导出PMML模型bug排查纪实
当遇到大规模逻辑回归LR时,原生spark是解决不了问题的项目场景:本项目需要使用LR模型作为排序模型,输入矩阵为独热编码后的稀疏矩阵。不考虑PMML存储方式的实现很简单,使用的是官方API(我用的是spark2.4.0版本)通过独热编码One-hotCode产生高维稀疏矩阵时,此时还想通过JPMML-spark工具和pipelineModel方式生成PMML文件是不可行。问题描述:一开始我也以为LR模型模型训练后很容易导出为PMML文件。通过下文我开启了PMML探索之旅。模型在原创 2021-06-18 18:42:07 · 520 阅读 · 1 评论