自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

WGS.

你若对得起时间,时间便会对得起你

  • 博客(13)
  • 资源 (24)
  • 收藏
  • 关注

原创 推荐中的ctr校准方式

文章目录为什么要ctr校正?CTR 训练时负样本下采样,上线前如何矫正?第一种方法第二种方法矫正ctr例子Python code为什么要ctr校正?通常我们在做CTR预估的时候,预估值会与真是的CTR有偏差,这种偏差可能来自于负采样,可能是因为模型的问题。CTR预估值与真实值有偏差,并不会影响AUC指标和排序,但是实际使用中往往需要CTR的预估值不仅仅是做到有序,即正样本排在负样本前面,而且需要保证有一定的区分度。这涉及到一个概念保序和保距。假设我们有这么一个序列 牛 500KG,羊100KG,兔子

2021-03-29 16:36:35 2588 1

原创 关于广告中的定向和人群包

文章目录广告中的定向1. 广告有哪些定向方式2. 地域定向详细说明3. 人群定向 广告人群定向的维度分为六种4. 关键词定向5. 关键词定向是否指精准关键词6. 什么是潜在虚拟付费7. 什么是app行为定向8. 什么是消费能力定向人群包广告中的定向1. 广告有哪些定向方式一般广告支持的多种定向方式,包括:(1)地域定向:省市、商圈;(2)用户基本信息定向:年龄、性别、上网场景;(3)用户情况定向:学历、婚恋状况、生活状况、商业兴趣定向、关键词;(4)用户行为定向:付费用户、APP行为定向、应用

2021-03-29 15:54:43 2895 1

原创 protobuf常用数据类型-python pb文件

文章目录常用数据类型常用特殊字符_pb2.py文件介绍_pb2_grpc.py文件介绍protobuf文件demo常用数据类型类型说明string字符串类型,要求是utf-8或7-bit与ascii编码的字符串bytes比特类型bool布尔类型int3232位整型int6464位整型float浮点类型repeated数组(列表) repeated string data = 1;map字典类型 map<string, s

2021-03-28 17:32:59 1424

原创 python grpc 服务端和客户端调用demo

文章目录grpc安装定义proto文件服务端demo客户端demogrpc安装pip install grpciopip install grpcio-tools# 或者清华源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ grpcio grpc-tools protobuf定义proto文件在目录下新建一个后缀名为proto的文件// 使用哪种的protosyntax = "proto3";// 给包起一个名称

2021-03-28 16:20:42 2098 2

原创 pyspark里的SparkContext及RDD的基本demo

文章目录SparkContext介绍pysparkRDD的一些基本操作countcollectforeachfiltermapreducejoinSparkContext介绍SparkContext是任何spark功能的入口点。当我们运行任何Spark应用程序时,启动一个驱动程序,它具有main函数,并在此处启动SparkContext。然后,驱动程序在工作节点上的执行程序内运行操作。SparkContext使用Py4J启动 JVM 并创建 JavaSparkContext。默认情况下,PySpark

2021-03-26 18:08:35 1128

原创 Spark中的DataFrame与Pandas中的DataFrame

文章目录Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换Spark与Pandas中的DataFrame的区别例子Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换# pandas转sparkvalues = pandas_df.values.tolist()columns = pandas_df.columns.tolist()spark_df = spark.createDataFrame(values, colu

2021-03-25 16:00:50 610

原创 chunksize、iterator --- Pandas分块处理大文件

原理就是不一次性把文件数据读入内存中,而是分多次1.指定chunksize分块读取文件read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的 TextFileReader 对象。table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000)for df in table: 对df处理 #如df.drop(columns=['page',

2021-03-24 15:47:21 3877

原创 Sending build context to Docker daemon 解决办法

build context to Docker daemon 3.314GB意思是:正在将生成上下文发送到Docker守护程序。如果dockerfile的同级目录文件过多过大,docker build的时候会向上下文环境发送,导致很慢,这个时候的解决办法有:1.使用.dockerignore文件,设置黑名单,该文件包含的目录不会被发送到Docker daemon中2.将Dockerfile迁移后其他目录中执行。3.将不需要的文件删除这里以第一种方法为例,给出解决demo如果build命令.

2021-03-23 19:23:59 19446 1

原创 Linux下配置pyspark环境

文章目录下载安装包解压文件在启动PySpark之前,需要设置以下环境来设置Spark路径和 Py4j路径现在我们已经设置了所有环境,让我们转到Spark目录并通过运行以下命令调用PySpark shell下载安装包https://spark.apache.org/downloads.html这里就安装最新版了解压文件tar -zxvf /export/spark-3.1.1-bin-hadoop2.7.tgz -C /export/service/在启动PySpark之前,需要设置以下环

2021-03-22 22:33:56 1638 2

原创 crontab_docker 定时任务

crond作为linux定时任务的服务提供者,基本上linux上都会将此服务启动起来.但是在docker镜像中就未必如此了。很多时候镜像中没有crond服务,如果又不太方便安装,或者统一的镜像不太好为一个特殊的需求特意提供此项功能的时候,可以考虑使用外部的crontab通过docker exec来执行确认结果。crontab命令crontab文件格式* * * * * /tmp/check_system.sh其它例子参考于 https://www.runoob.com/linux/li..

2021-03-22 15:58:24 389

原创 docker build 时 no such file or directory

路径如下:|-data||–wgs||—ctr_history||----ad_ctr_history||----docker|如果排除路径名打错或者没有权限的问题的话,no such file or directory 可能是dockerfile的上下文环境没有你要ADD的文件直接给出正确dockerfile:# ad_ctr_history imageFROM continuumio/anaconda3:2020.02# MAINTAINERMAINTAINER XXX

2021-03-22 15:52:07 4438

原创 Python判断节假日 chinese_calendar

pip install chinesecalendar支持 2004年 至 2021年判断某日是节假日还是工作日。import datetimeimport chinese_calendar demo_time = datetime.date(2018, 10, 2) # 判断是否是节假日data_is_holiday = chinese_calendar.is_holiday(demo_time) # True# 判断某日是否工作日data_is_workday = chi

2021-03-19 11:17:02 7016 2

原创 几个深度网络在文本分类的应用

文章目录FasttextTextCNNDPCNNTextRCNNTextBiLSTM+AttentionHAN技巧数据集构建长文本少样本鲁棒性Fasttext论文:https://arxiv.org/abs/1607.01759代码:https://github.com/facebookresearch/fastTextFasttext是Facebook推出的一个便捷的工具,包含文本分类和词向量训练两个功能。Fasttext的分类实现很简单:把输入转化为词向量,取平均,再经过线性分类器得到类别。

2021-03-16 15:34:22 758 1

垂域大模型微调PPT方案V1.pdf

垂域大模型微调PPT方案

2023-07-15

搜狗新闻预训练embedding

搜狗新闻预训练embedding

2022-09-08

pimaindians糖尿病数据集.csv

糖尿病数据集pima-indians-diabetes

2021-05-20

cnn-vcode.rar

cnn-验证码数据集

2020-08-25

cnn_mnist.rar

CNN手写体数字识别数据集

2020-08-21

donations.rar

营销预测响应donations营销预测响应

2020-07-21

Bankcredit.rar

银行案例_预测违约概率

2020-07-20

k相邻验证码识别.rar

k相邻验证码识别.rar

2020-07-17

SogouC.rar

中文新闻分类数据集

2020-07-17

email datasets.rar

垃圾邮件分类数据集

2020-07-17

data_travel.csv

旅游客户数据集

2020-07-15

Ecommerce Customers.csv

电子商务客户(python库实现线性回归)

2020-07-14

titanic_test.csv

泰坦尼克(python库实现逻辑回归)测试集

2020-07-14

titanic_train.csv

泰坦尼克(python库实现逻辑回归)训练集

2020-07-14

stopwords.txt

停用词

2020-06-22

classify.xls

classify.xls

2020-06-22

纪录片播放量.xls

纪录片播放量.xls

2020-06-22

aviation.xls

aviation.xls

2020-06-22

机器学习个人笔记完整版v4.3.rar

机器学习个人笔记完整版v4.3.rar

2020-05-29

labely.txt

手写体数字识别训练集标签

2020-05-28

nn_imgX.txt

手写体数字识别训练特征集

2020-05-28

ccpp_train.txt

ccpp_train.txt

2020-05-20

ccpp_test.txt

ccpp_test.txt

2020-05-20

jquery滑动图片认证.rar

JS实现图片拖动验证 可以点击更换图片在img文件夹下 纯js实现图片拖动验证 滑动验证码方法在js里

2020-01-30

vs2017 C盘完全卸载.rar

卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘 卸载VS2017后,删干净C盘

2019-12-23

C-Plus-Plus-master.zip

用C++ 实现的算法 回溯、数据结构、图、搜索、分类、还有一些数学的 用C++ 实现的算法 回溯、数据结构、图、搜索、分类、还有一些数学的 用C++ 实现的算法 回溯、数据结构、图、搜索、分类、还有一些数学的

2019-12-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除