- 博客(13)
- 资源 (24)
- 收藏
- 关注
原创 推荐中的ctr校准方式
文章目录为什么要ctr校正?CTR 训练时负样本下采样,上线前如何矫正?第一种方法第二种方法矫正ctr例子Python code为什么要ctr校正?通常我们在做CTR预估的时候,预估值会与真是的CTR有偏差,这种偏差可能来自于负采样,可能是因为模型的问题。CTR预估值与真实值有偏差,并不会影响AUC指标和排序,但是实际使用中往往需要CTR的预估值不仅仅是做到有序,即正样本排在负样本前面,而且需要保证有一定的区分度。这涉及到一个概念保序和保距。假设我们有这么一个序列 牛 500KG,羊100KG,兔子
2021-03-29 16:36:35 2588 1
原创 关于广告中的定向和人群包
文章目录广告中的定向1. 广告有哪些定向方式2. 地域定向详细说明3. 人群定向 广告人群定向的维度分为六种4. 关键词定向5. 关键词定向是否指精准关键词6. 什么是潜在虚拟付费7. 什么是app行为定向8. 什么是消费能力定向人群包广告中的定向1. 广告有哪些定向方式一般广告支持的多种定向方式,包括:(1)地域定向:省市、商圈;(2)用户基本信息定向:年龄、性别、上网场景;(3)用户情况定向:学历、婚恋状况、生活状况、商业兴趣定向、关键词;(4)用户行为定向:付费用户、APP行为定向、应用
2021-03-29 15:54:43 2896 1
原创 protobuf常用数据类型-python pb文件
文章目录常用数据类型常用特殊字符_pb2.py文件介绍_pb2_grpc.py文件介绍protobuf文件demo常用数据类型类型说明string字符串类型,要求是utf-8或7-bit与ascii编码的字符串bytes比特类型bool布尔类型int3232位整型int6464位整型float浮点类型repeated数组(列表) repeated string data = 1;map字典类型 map<string, s
2021-03-28 17:32:59 1424
原创 python grpc 服务端和客户端调用demo
文章目录grpc安装定义proto文件服务端demo客户端demogrpc安装pip install grpciopip install grpcio-tools# 或者清华源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ grpcio grpc-tools protobuf定义proto文件在目录下新建一个后缀名为proto的文件// 使用哪种的protosyntax = "proto3";// 给包起一个名称
2021-03-28 16:20:42 2101 2
原创 pyspark里的SparkContext及RDD的基本demo
文章目录SparkContext介绍pysparkRDD的一些基本操作countcollectforeachfiltermapreducejoinSparkContext介绍SparkContext是任何spark功能的入口点。当我们运行任何Spark应用程序时,启动一个驱动程序,它具有main函数,并在此处启动SparkContext。然后,驱动程序在工作节点上的执行程序内运行操作。SparkContext使用Py4J启动 JVM 并创建 JavaSparkContext。默认情况下,PySpark
2021-03-26 18:08:35 1129
原创 Spark中的DataFrame与Pandas中的DataFrame
文章目录Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换Spark与Pandas中的DataFrame的区别例子Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换# pandas转sparkvalues = pandas_df.values.tolist()columns = pandas_df.columns.tolist()spark_df = spark.createDataFrame(values, colu
2021-03-25 16:00:50 613
原创 chunksize、iterator --- Pandas分块处理大文件
原理就是不一次性把文件数据读入内存中,而是分多次1.指定chunksize分块读取文件read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000)for df in table: 对df处理 #如df.drop(columns=['page',
2021-03-24 15:47:21 3886
原创 Sending build context to Docker daemon 解决办法
build context to Docker daemon 3.314GB意思是:正在将生成上下文发送到Docker守护程序。如果dockerfile的同级目录文件过多过大,docker build的时候会向上下文环境发送,导致很慢,这个时候的解决办法有:1.使用.dockerignore文件,设置黑名单,该文件包含的目录不会被发送到Docker daemon中2.将Dockerfile迁移后其他目录中执行。3.将不需要的文件删除这里以第一种方法为例,给出解决demo如果build命令.
2021-03-23 19:23:59 19452 1
原创 Linux下配置pyspark环境
文章目录下载安装包解压文件在启动PySpark之前,需要设置以下环境来设置Spark路径和 Py4j路径现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell下载安装包https://spark.apache.org/downloads.html这里就安装最新版了解压文件tar -zxvf /export/spark-3.1.1-bin-hadoop2.7.tgz -C /export/service/在启动PySpark之前,需要设置以下环
2021-03-22 22:33:56 1638 2
原创 crontab_docker 定时任务
crond作为linux定时任务的服务提供者,基本上linux上都会将此服务启动起来.但是在docker镜像中就未必如此了。很多时候镜像中没有crond服务,如果又不太方便安装,或者统一的镜像不太好为一个特殊的需求特意提供此项功能的时候,可以考虑使用外部的crontab通过docker exec来执行确认结果。crontab命令crontab文件格式* * * * * /tmp/check_system.sh其它例子参考于 https://www.runoob.com/linux/li..
2021-03-22 15:58:24 389
原创 docker build 时 no such file or directory
路径如下:|-data||–wgs||—ctr_history||----ad_ctr_history||----docker|如果排除路径名打错或者没有权限的问题的话,no such file or directory 可能是dockerfile的上下文环境没有你要ADD的文件直接给出正确dockerfile:# ad_ctr_history imageFROM continuumio/anaconda3:2020.02# MAINTAINERMAINTAINER XXX
2021-03-22 15:52:07 4438
原创 Python判断节假日 chinese_calendar
pip install chinesecalendar支持 2004年 至 2021年判断某日是节假日还是工作日。import datetimeimport chinese_calendar demo_time = datetime.date(2018, 10, 2) # 判断是否是节假日data_is_holiday = chinese_calendar.is_holiday(demo_time) # True# 判断某日是否工作日data_is_workday = chi
2021-03-19 11:17:02 7021 2
原创 几个深度网络在文本分类的应用
文章目录FasttextTextCNNDPCNNTextRCNNTextBiLSTM+AttentionHAN技巧数据集构建长文本少样本鲁棒性Fasttext论文:https://arxiv.org/abs/1607.01759代码:https://github.com/facebookresearch/fastTextFasttext是Facebook推出的一个便捷的工具,包含文本分类和词向量训练两个功能。Fasttext的分类实现很简单:把输入转化为词向量,取平均,再经过线性分类器得到类别。
2021-03-16 15:34:22 758 1
vs2017 C盘完全卸载.rar
2019-12-23
C-Plus-Plus-master.zip
2019-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人