- 博客(642)
- 资源 (19)
- 收藏
- 关注
转载 我上了985,211,才发现自己一无所有 | 或者,也不能这么说
转载:旦事记 《我上了985,211,才发现自己一无所有 | 或者,也不能这么说》一文 我是在很久以后才意识到原来那些看起来光鲜亮丽的人心里也是在自卑的。 这个发现很偶然,是有一次我的学霸舍友回来,非常非常不开心,趴在桌子上很久很久没有起来。 我打着炉石呢,觉得不对劲回过头说你怎么了。她抬起头来说,哎,我才发现人与人的差距这么大。你不知道我今天参加讨论课,有个女...
2018-11-02 08:40:46 7082 7
原创 oCPC和CPC之间的区别
oCPC官方给出的概念是:智能出价,注重转化,CPC是指按点击付费的结算方式,广告主给每次点击的价钱。从这两点就可以看出来,oCPC比CPC更加符合企业主需求的转化效果,但其实两者的结算方式是一样的,都是按点击计费,不同的是oCPC的智能化,所谓的智能化就是平台通过估算广告的CTR、CVR,帮助广告主合理出价(点击计费的价格)。对平台而言:oCPC的本质是量化流量价值,实现最精细化的广告投放。oCPC是一种AI智能投放模式。系统基于对广告主转化数据的对接和深度理解,智能实时预估每一次点击的转化率并基
2021-02-20 20:19:26 5309 1
原创 如何设置oCPC效果广告竞价的底价
一、概述效果广告竞价底价,顾名思义,就是在效果广告的竞价中给竞拍设定一个最低价,通常也是二价扣费的最低值。为什么需要这么做呢?其实在理想的状态下,一个充分竞争的,并且有着充分广告源的市场,广告的单价应该是逐渐升高的。因为广告位资源毕竟是有限的,在有充分广告源的情况下,所有的广告商为了竞争这些有限的广告位,必定是会逐渐抬高广告位的价格。而作为媒体(平台),在这个过程中则可以享受到逐渐升高的广告位价值。然而,在现实中的很多情况下,这种理想状态的竞争态势并不完全存在。比如,对于媒体(平台)来说,在首.
2021-02-20 20:11:34 1192
原创 Ocpc 效果广告中对达成率较好的广告主出价提权重设想
一、背景OCPC 是效果广告最近两年比较好的业务模式,目标是通过对广告主 ROI 进行优化,在满足广告主达成的情况下,提高平台整体收益。OCPC广告在实际的投放过程中存在:1、个别广告主因为广告创意、媒体(平台)的模型、策略扶植的优势,往往造成广告主的实际投放成本远低于广告主的期望成本,在广告主不是特别求量的情况下,广告主往往会调整出价;2、由于媒体(平台)的模型、策略的变更,部分广告主在这次的模型、策略变更中获得收益,也会造成变更后广告主的实际投放成本远低于广告主的期望成本,也会造成广告主调整出
2021-02-20 20:09:44 1229
原创 tensorflow训练模型出现nan
一、前沿最近搞cvr 转化时延建模的事情,升级了一下模型结构,并写了一个巨复杂的损失函数,但是调试好多时间,总是在训练过程中偶尔报下面的错误:错误的原因是 计算auc的过程中偶尔出现 InvalidArgumentError (see above for traceback): assertion failed: [predictions must be in [0, 1]],也就是predictions中出现了[0,1] 区间之外的值。注:predictions经过了sigmoidlab
2021-02-20 20:05:37 2984
原创 jvm基础知识一
数据类型 Java虚拟机中,数据类型可以分为两类:基本类型和引用类型。基本类型的变量保存原始值,即:他代表的值就是数值本身;而引用类型的变量保存引用值。“引用值”代表了某个对象的引用,而不是对象本身,对象本身存放在这个引用值所表示的地址的位置。基本类型包括:byte,short,int,long,char,float,double,Boolean,returnAddress引用...
2021-02-18 21:03:34 596
原创 jvm基础知识二
Java对象的大小基本数据的类型的大小是固定的,这里就不多说了。对于非基本类型的Java对象,其大小就值得商榷。在Java中,一个空Object对象的大小是8byte,这个大小只是保存堆中一个没有任何属性的对象的大小。看下面语句:Object ob = new Object();这样在程序中完成了一个Java对象的生命,但是它所占的空间为:4by...
2021-02-18 21:02:56 543
原创 回归(regression)与分类(classification)的区别
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”回归与分类的不同1.回归问题的应用场景(预测的结果是连续的,例如预测明天的温度,23,24,25度)回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为...
2020-06-22 15:58:03 31534 6
原创 xgboost: Higgs Boson Machine Learning Challenge
代码原始出处: https://github.com/dmlc/xgboost/tree/master/demo/kaggle-higgs一、问题介绍竞赛官网:https://www.kaggle.com/c/higgs-boson/希格斯玻色子(英语:Higgs boson)是标准模型里的一种基本粒子,是因物理学者彼得·希格斯而命名。2012年7月4日,欧洲核子研究组织(CE...
2019-07-28 13:29:38 1320 2
原创 shell命令行&&、||和 ; 的使用方法
一、&&运算符:如下:&&左边的命令(命令1)返回真(即返回0,成功被执行)后,&&右边的命令(命令2)才能够被执行;换句话说,“如果这个命令执行成功&&那么执行这个命令”。command1 && command2语法格式如下:command1 && command2 [&&am...
2019-07-28 13:21:14 23363 2
原创 机器学习:什么是欠拟合和过拟合
1. 什么是欠拟合和过拟合先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系第一张图片拟合的函数和训练集误差较大,我们称这种情况为欠拟合 第二张图片拟合的函数和训练集误差较小,我们称这种情况为合适拟合 第三张图片拟合的函数完美的匹配训练集数据,我们称这种情况为过拟合类似的,对于逻辑回归同样也存在欠拟合和过拟合问题,如下三张图2. 如何解决欠拟合...
2019-07-27 11:25:32 33198 2
转载 极大似然估计和贝叶斯决策详解
原博客链接1 :https://blog.csdn.net/zengxiantao1994/article/details/72787849原博客链接2: https://blog.csdn.net/linyanqing21/article/details/50939009主要内容:总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。 原...
2018-12-26 20:49:13 1211
原创 Jupyter Notebook使用教程(如何在code和markdown切换,快捷键设置)
1、启动在终端中输入以下命令:jupyter notebook --allow-root执行命令之后,在终端中将会显示一系列notebook的服务器信息,同时浏览器将会自动启动Jupyter Notebook。启动过程中终端显示内容如下:$ jupyter notebook[I 08:58:24.417 NotebookApp] Serving notebooks fr...
2018-12-07 11:32:36 49178 7
转载 markdown(md)文件的基本常用编辑语法
.md即markdown文件的基本常用编写语法(图文并茂)原文:https://www.cnblogs.com/liugang-vip/p/6337580.html起因:因为现在的前端基本上都用上了前端构建工具,那就难免要写一些readme等等的说明性文件,但是这样的文件一般都是.md的文件,编写的语法自然跟其他格式的文件有所区别,置于为什么要用这种格式的文件,不要问我,我也不知道,大...
2018-12-06 22:48:12 5868 1
转载 机器学习中的范数规则化之 L0、L1与L2范数
原文:https://blog.csdn.net/zouxy09/article/details/2497199 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存...
2018-10-24 16:12:13 1690
原创 词嵌入向量(Word Embedding)的建模
1、Embedding函数从前面的定义,我们期望在隐层中找到一个/组嵌入函数W(这里采用lookup table的方式),使得![][3]具体的,假设指定固定的向量维度,W("篮球")=(0.2, -0.4, 0.7, ...),W("苹果")=(0.0, 0.6, -0.1, ...),W初始化时可以赋值给每个维度一个随机数,并通过与output层连接建立学习模型/任务后得到有意义的向量。...
2018-09-29 21:48:03 6352 1
转载 词嵌入向量(Word Embedding)的原理和生成方法
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”Word Embedding词嵌入向量(WordEmbedding)是NLP里面一个重要的概念,我们可以利用Word Embedding将一个单词转换成固定长度的向量表示,从而便于进行数学处理。本文将介绍Word Emb...
2018-09-29 11:08:12 26339 2
转载 Bow词袋模型原理与实例(bag of words)
The bag-of-words model is a simplifying assumption used in natural language processing and information retrieval. In this model, a text (such as a sentence or a document) is represented as an unordere...
2018-09-29 10:50:59 5206
转载 程序化广告交易中的点击率预估
指标 广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。 2. 数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我...
2018-09-18 12:24:04 749
转载 GBDT+LR特征融合的例子
sklearn直接使用.apply即可完成,下面看下简单的例子,GBDT+LR融合后比直接使用GBDT预测,AUC提升了0.004import pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import GradientBoostingClassifierf...
2018-09-18 12:21:22 1607
转载 CTR预估中GBDT与LR融合方案
原文:https://blog.csdn.net/lilyth_lilyth/article/details/480321191、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型是LR(Logistic Regression)[1],LR是广义线性模型,与传统线...
2018-09-18 11:14:01 429
原创 pandas的iloc、loc、ix的使用(列切片及行切片)
loc:通过选取行(列)标签索引数据 iloc:通过选取行(列)位置编号索引数据 ix:既可以通过行(列)标签索引数据,也可以通过行(列)位置编号索引数据df是一个dataframe,列名为A B C D具体值如下:A B C D0 ss 小红 81 aa 小明 d4 f f6 ak 小紫 ...
2018-09-15 22:07:30 19875
转载 解决jupyter中matplotlib中文乱码问题
第一步:系统中文字体查看[hadoop@p168 ~]$ fc-list :lang=zh/System/Library/Fonts/STHeiti Medium.ttc: 黑体\-简,黑體\-簡,Heiti SC,黒体\-簡,Heiti\-간체:style=中等,中黑,Medium,Halbfett,Normaali,Moyen,Medio,ミディアム,중간체,Médio,Средний...
2018-09-14 23:13:37 3638
转载 Kaggle案例之泰坦尼克船员幸存预测
无意间在网易云课堂上找了一个Kaggle案例,泰坦尼克获救船员预测,在此之前我是从没接触过kaggle,毕竟是刚入门的小白,看着视频,算是真正实战了一次,主要是在这个过程中学到了很多东西。下面视频地址http://study.163.com/course/courseLearn.htm?courseId=1003551009#/learn/video?lessonId=1004052093&...
2018-09-14 10:54:03 1175 2
转载 使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤...
2018-09-06 09:49:23 544
转载 用sklearn做特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 ...
2018-09-05 20:47:00 1194
转载 数学基础
线性代数 https://www.matongxue.com/courses/1/微积分 https://www.matongxue.com/courses/2/ 马同学高等数学 如何理解主元分析(PCA)? https://www.matongxue.com/madocs/1025.html 马同学高等数学 如何理解协方差、相关系数和点积? https://www.mat...
2018-09-03 19:15:28 353
转载 联合概率分布
原文 https://blog.csdn.net/tiankong_/article/details/783326661.什么是联合概率分布? 联合概率分布简称联合分布,是两个及以上随机变量组成的随机向量的概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过一非负函数...
2018-08-29 11:14:31 23053
原创 独立同分布
在概率统计理论中,如果变量序列或者其他随机变量有相同的概率分布,并且互相独立,那么这些随机变量是独立同分布。(independent and identically distributed ) 随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值.随机变量X1和X2同分布,意味着X1和X2具有相同的分布形状和相同的分布参数,对离散随机变量具有相同...
2018-08-29 09:36:55 8368
转载 neo4j的存储方式
neo4j图形数据库是以图形结构的形式存储数据的数据库。 它以节点,关系和属性的形式存储应用程序的数据。 正如RDBMS以表的“行,列”的形式存储数据,GDBMS以“图形”的形式存储数据。Neo4j 是目前最流行的图形数据库,支持完整的事务,在属性图中,图是由顶点(Vertex),边(Edge)和属性(Property)组成的,顶点和边都可以设置属性,顶点也称作节点,边也称作关系,每个节点和关...
2018-08-06 09:57:34 8926
转载 特征工程:衡量特征的重要型
知乎特征选择:https://zhuanlan.zhihu.com/p/32749489结合sklearn的几种特征选择方法:https://www.cnblogs.com/hhh5460/p/5186226.html结合sklearn的几种特征选择方法2 :https://blog.csdn.net/bryan__/article/details/51607215...
2018-08-04 15:12:31 1324
转载 机器学习中缺失值的处理
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”1、怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感呢?首先从两个角度解释你的困惑:工具包自动处理数据缺失不代表具体的算法可以处理缺失项 对于有缺失的数据:以决策树为原型的模型优于依...
2018-08-03 22:24:30 18885 1
转载 FM(Factorization Machines )特征处理
博客链接:知乎,讲解的比较好 https://zhuanlan.zhihu.com/p/37963267算法理论:https://www.cnblogs.com/AndyJee/p/7879765.htmlFM/FFM算法https://zhuanlan.zhihu.com/p/34564014工程实践http://www.cnblogs.com/AndyJee/p/80325...
2018-08-01 19:39:30 3113
转载 理解LSTM网络
原文:https://www.jianshu.com/p/9dc9f41f0b29理解原文的关键在于理解,三个门(忘记门,输入门,输出门)和细胞状态的更新。
2018-08-01 15:29:06 454
转载 模型融合—— stacking详细讲解
“无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。”stacking的过程有一张图非常经典,如下:虽然他很直观,但是没有语言描述确实很难搞懂。上半部分是用一个基础模型进行5折交叉验证,如:用XGBoost作为基础模型Model1,5折交叉验证就是先拿出四折作...
2018-07-31 14:42:59 52327 15
转载 xgboost相比传统gbdt有何不同?xgboost为什么快?如何支持并行?
传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶和二阶导数。顺便提一下,xgboost工具支持自定义代价函数,只要函数可一阶和二阶求导。xgboost在代价函数里加入了正则项,用于...
2018-07-30 21:29:01 2318
转载 jieba 详细介绍
原文:https://github.com/fxsjy/jiebajieba"结巴"中文分词:做最好的Python中文分词组件 "Jieba" Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模...
2018-07-27 10:54:04 14505 1
转载 Adaboost入门教程——最通俗易懂的原理介绍
原文 https://blog.csdn.net/px_528/article/details/72963977说到Adaboost,公式与代码网上到处都有,《统计学习方法》里面有详细的公式原理,Github上面有很多实例,那么为什么还要写这篇文章呢?希望从一种更容易理解的角度,来为大家呈现Adaboost算法的很多关键的细节。本文中暂时没有讨论其数学公式,一些基本公式可以参考《统计学习方...
2018-07-25 09:33:26 1192 1
转载 特征提取方法: one-hot 和 TF-IDF
转载:https://www.cnblogs.com/lianyingteng/p/7755545.html推荐阅读:https://blog.csdn.net/lanhaier0591/article/details/78702558https://blog.csdn.net/bitcarmanlee/article/details/51472816one-hot 和 TF-IDF是...
2018-07-18 00:21:21 1972
Mushroom Classification--xgboost训练数据
2018-03-02
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人