2021年03月_WGS.

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创推荐中的ctr校准方式

文章目录为什么要ctr校正？CTR 训练时负样本下采样，上线前如何矫正？第一种方法第二种方法矫正ctr例子Python code为什么要ctr校正？通常我们在做CTR预估的时候，预估值会与真是的CTR有偏差，这种偏差可能来自于负采样，可能是因为模型的问题。CTR预估值与真实值有偏差，并不会影响AUC指标和排序，但是实际使用中往往需要CTR的预估值不仅仅是做到有序，即正样本排在负样本前面，而且需要保证有一定的区分度。这涉及到一个概念保序和保距。假设我们有这么一个序列牛 500KG，羊100KG，兔子

2021-03-29 16:36:35 2588 1

原创关于广告中的定向和人群包

文章目录广告中的定向1. 广告有哪些定向方式2. 地域定向详细说明3. 人群定向广告人群定向的维度分为六种4. 关键词定向5. 关键词定向是否指精准关键词6. 什么是潜在虚拟付费7. 什么是app行为定向8. 什么是消费能力定向人群包广告中的定向1. 广告有哪些定向方式一般广告支持的多种定向方式，包括：（1）地域定向：省市、商圈；（2）用户基本信息定向：年龄、性别、上网场景；（3）用户情况定向：学历、婚恋状况、生活状况、商业兴趣定向、关键词；（4）用户行为定向：付费用户、APP行为定向、应用

2021-03-29 15:54:43 2896 1

原创 protobuf常用数据类型-python pb文件

文章目录常用数据类型常用特殊字符_pb2.py文件介绍_pb2_grpc.py文件介绍protobuf文件demo常用数据类型类型说明string字符串类型，要求是utf-8或7-bit与ascii编码的字符串bytes比特类型bool布尔类型int3232位整型int6464位整型float浮点类型repeated数组(列表) repeated string data = 1;map字典类型 map<string, s

2021-03-28 17:32:59 1424

原创 python grpc 服务端和客户端调用demo

文章目录grpc安装定义proto文件服务端demo客户端demogrpc安装pip install grpciopip install grpcio-tools# 或者清华源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ grpcio grpc-tools protobuf定义proto文件在目录下新建一个后缀名为proto的文件// 使用哪种的protosyntax = "proto3";// 给包起一个名称

2021-03-28 16:20:42 2101 2

原创 pyspark里的SparkContext及RDD的基本demo

文章目录SparkContext介绍pysparkRDD的一些基本操作countcollectforeachfiltermapreducejoinSparkContext介绍SparkContext是任何spark功能的入口点。当我们运行任何Spark应用程序时，启动一个驱动程序，它具有main函数，并在此处启动SparkContext。然后，驱动程序在工作节点上的执行程序内运行操作。SparkContext使用Py4J启动 JVM 并创建 JavaSparkContext。默认情况下，PySpark

2021-03-26 18:08:35 1129

原创 Spark中的DataFrame与Pandas中的DataFrame

文章目录Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换Spark与Pandas中的DataFrame的区别例子Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换# pandas转sparkvalues = pandas_df.values.tolist()columns = pandas_df.columns.tolist()spark_df = spark.createDataFrame(values, colu

2021-03-25 16:00:50 613

原创 chunksize、iterator --- Pandas分块处理大文件

原理就是不一次性把文件数据读入内存中，而是分多次1.指定chunksize分块读取文件read_csv 和 read_table 有一个 chunksize 参数，用以指定一个块大小(每次读取多少行)，返回一个可迭代的 TextFileReader 对象。table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000)for df in table: 对df处理 #如df.drop(columns=['page',

2021-03-24 15:47:21 3886

原创 Sending build context to Docker daemon 解决办法

build context to Docker daemon 3.314GB意思是：正在将生成上下文发送到Docker守护程序。如果dockerfile的同级目录文件过多过大，docker build的时候会向上下文环境发送，导致很慢，这个时候的解决办法有：1.使用.dockerignore文件，设置黑名单，该文件包含的目录不会被发送到Docker daemon中2.将Dockerfile迁移后其他目录中执行。3.将不需要的文件删除这里以第一种方法为例，给出解决demo如果build命令.

2021-03-23 19:23:59 19452 1

原创 Linux下配置pyspark环境

文章目录下载安装包解压文件在启动PySpark之前，需要设置以下环境来设置Spark路径和 Py4j路径现在我们已经设置了所有环境，让我们转到Spark目录并通过运行以下命令调用PySpark shell下载安装包https://spark.apache.org/downloads.html这里就安装最新版了解压文件tar -zxvf /export/spark-3.1.1-bin-hadoop2.7.tgz -C /export/service/在启动PySpark之前，需要设置以下环

2021-03-22 22:33:56 1638 2

原创 crontab_docker 定时任务

crond作为linux定时任务的服务提供者,基本上linux上都会将此服务启动起来.但是在docker镜像中就未必如此了。很多时候镜像中没有crond服务，如果又不太方便安装，或者统一的镜像不太好为一个特殊的需求特意提供此项功能的时候，可以考虑使用外部的crontab通过docker exec来执行确认结果。crontab命令crontab文件格式* * * * * /tmp/check_system.sh其它例子参考于 https://www.runoob.com/linux/li..

2021-03-22 15:58:24 389

原创 docker build 时 no such file or directory

路径如下：|-data||–wgs||—ctr_history||----ad_ctr_history||----docker|如果排除路径名打错或者没有权限的问题的话，no such file or directory 可能是dockerfile的上下文环境没有你要ADD的文件直接给出正确dockerfile：# ad_ctr_history imageFROM continuumio/anaconda3:2020.02# MAINTAINERMAINTAINER XXX

2021-03-22 15:52:07 4438

原创 Python判断节假日 chinese_calendar

pip install chinesecalendar支持 2004年至 2021年判断某日是节假日还是工作日。import datetimeimport chinese_calendar demo_time = datetime.date(2018, 10, 2) # 判断是否是节假日data_is_holiday = chinese_calendar.is_holiday(demo_time) # True# 判断某日是否工作日data_is_workday = chi

2021-03-19 11:17:02 7021 2

原创几个深度网络在文本分类的应用

文章目录FasttextTextCNNDPCNNTextRCNNTextBiLSTM+AttentionHAN技巧数据集构建长文本少样本鲁棒性Fasttext论文：https://arxiv.org/abs/1607.01759代码：https://github.com/facebookresearch/fastTextFasttext是Facebook推出的一个便捷的工具，包含文本分类和词向量训练两个功能。Fasttext的分类实现很简单：把输入转化为词向量，取平均，再经过线性分类器得到类别。

2021-03-16 15:34:22 758 1