Pandas多条件筛选 pandas可以用str.contains来模糊筛选,有点像SQL中的like。filter不筛选具体的数据,而是筛选特定的行和列。regex:正则表达式。items:固定列名。
tf2读tfrecord文件 import tensorflow as tftfrecord_file="a.tfrecord"dataset=tf.data.TFRecordDataset(tfrecord_file)for raw in dataset.take(1): example=tf.train.Example() example.ParseFromString(raw_record.numpy()) print(example)
xgboost实例 # _*_coding:utf-8 _*_# @project:py_project# @name:7372# @date:2022/2/13 11:07# @Author:Lyimport pandas as pdimport osimport numpy as npimport xgboost as xgbfrom sklearn.metrics import recall_score,accuracy_score,roc_auc_score,f1_scorefrom sklearn
pyspark udf in get_return_value py4j.protocol.Py4JJavaError: 1、在用pyspark的时候,像这种udf函数一定要加上类型,,不然会报错~~2、pyspark 如图,如果不加float,会报下面这个错误File "/mnt/yarn/usercache/hadoop/appcache/application_1614052931500_111643/container_1614052931500_111643_01_000001/pyspark.zip/pyspark/sql/dataframe.py", line 378, in show File "/
离线与在线auc不一致问题 阅读论文:Predictive Model Performance: Offline and Online Evaluations1、离线AUC、RIG有迷惑性(线上线下不一致)、auc忽略了预测得分,只关注顺序(正样本排在负样本之前)auc 越高并不意味着有更好的排序AUC不能区分ROC空间的各个区域,所以仅通过优化数据两端的模型性能就可以训练模型以最大化AUC分数。实际上,高估pClick得分范围内的点击概率比低估pClick得分范围时对在线性能的影响要小低pClick范围内pClick得分
shell 脚本测试是否服务器环境包含python包 #!/bin/bashecho “start”python3 <<EOF #开始符合和结束符合相同import arrowimport lightgbm as lgbimport xgboost as xgbfrom sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressorfrom sklearn.linear_model import LogisticRegressionfrom
python .proto 转py 1、安装grpcio 与 grpcio-tools2、将要转化的安装grpcio 与 grpcio-tools将要转化的proto协议放入单独文件夹下3、在文件夹下运行cmd,执行python -m grpc_tools.protoc -I./ --python_out=./ --grpc_python_out=./ ..proto,即可将完成文件夹下所有的proto的转化proto协议放入单独文件夹下在文件夹下运行cmd,执行python -m grpc_tools.protoc -I./ --p
pyspark学习 1、修改列名有两种方式1.1 for循环一个个修改for name in field_mapping: all_data = all_data.withColumnRenamed(name, field_mapping[name])1.2 functions函数import pyspark.sql.functions as Fall_data = (all_data.select(*[F.col(s).alias(field_mapping[s]) if s in field_mapp
hadoop 基础命令一览 1 从HDFS将文件传到本地下面两个命令是把文件从HDFS上下载到本地的命令。1.1 get使用方法:hadoop fs -get [-ignorecrc] [-crc] 复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。示例:hadoop fs -get /user/hadoop/file localfilehadoop fs -get hdfs://host:port/user/hadoop/file localfile
tensorflow2.3+ kears tf.keras.models.load_model载人模型,模型ValueError: Unknown loss function: define_loss 自定义损失函数load_model
CSDN-markdown编辑器---基本语法一览 欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
tensorflow2.3以上keras model.fit()出现维度错误问题 def gen_model(site_id): input1 = tf.keras.layers.Input(shape=(2,), dtype=tf.float32, name='ty') ctr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, name='a_label') ctcvr_label = tf.keras.layers.Input(shape=(1,), dtype=tf.float32, .
日常s3命令记录 查看文件大小aws s3 ls s3://${path}/ --recursive --human-readable --summarize查看子目录浏览path子文件aws s3 ls s3://${path}/ s3不支持ll删除操作删除单个文件用rm,删除文件夹用–recursiveaws s3 rm s3://${path}/ --recursive同步本地文件至s3将data文件夹下的所有文件(包含文件夹及其子文件)传至s3的path目录下aws s3 sync dat
多目标学习(Multi-task Learning)-网络设计和损失函数优化 目前多目标学习主要从两个方向展开,一个是网络结构设计,一个是损失函数优化;一、MTL网络设计MTL网络通常可分为两种两种,一种是hard-parameter sharing不同任务间共用底部的隐层,另一种是soft-parameter sharing,形式较为多样,如两个任务参数不共享,但对不同任务的参数增加L2范数的限制;也有一些对每个任务分别生成各自的隐层,学习所有隐层的组合;这两种方式各有优劣,hard类的网络较soft不容易陷入过拟合,但如果任务差异较大,模型结果较差,但soft类网络通常参数较