自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 排序模型-FTRL

排序模型进阶-FTRL1 问题在实际项目的时候,经常会遇到训练数据非常大导致一些算法实际上不能操作的问题。比如在推荐行业中,因为DSP的请求数据量特别大,一个星期的数据往往有上百G,这种级别的数据在训练的时候,直接套用一些算法框架是没办法训练的,基本上在特征工程的阶段就一筹莫展。通常采用采样、截断的方式获取更小的数据集,或者使用大数据集群的方式进行训练,但是这两种方式在作者看来目前存在两个问题:采样数据或者截断数据的方式,非常的依赖前期的数据分析以及经验。大数据集群的方式,目前spark原生支持的

2021-04-27 00:58:46 644

原创 WDL模型导出

WDL模型导出2 线上预估线上流量是模型效果的试金石。离线训练好的模型只有参与到线上真实流量预估,才能发挥其价值。在演化的过程中,我们开发了一套稳定可靠的线上预估体系,提高了模型迭代的效率。模型同步我们开发了一个高可用的同步组件:用户只需要提供线下训练好的模型的HDFS路径,该组件会自动同步到线上服务机器上。该组件基于HTTPFS实现,它是美团离线计算组提供的HDFS的HTTP方式访问接口。同步过程如下:同步前,检查模型md5文件,只有该文件更新了,才需要同步。同步时,随机链接HTTPFS机器并

2021-04-27 00:50:22 115

原创 Wide&Deep

排序模型进阶-Wide&Deep1 wide&deepWide部分的输入特征:raw input features and transformed featuresnotice: W&D这里的cross-product transformation:只在离散特征之间做组合,不管是文本策略型的,还是离散值的;没有连续值特征的啥事,至少在W&D的paper里面是这样使用的。Deep部分的输入特征:raw input+embeding处理对非连续值之外的特征做em

2021-04-27 00:47:43 106

原创 Tensorflow鸢尾花分类(数据加载与特征处理)

案例:DNN进行分类学习目标目标知道tf.data.Dataset的API使用知道tf.feature_columnAPI使用知道tf.estimatorAPI使用应用无2.1 数据集介绍对鸢尾花进行分类:概览本文档中的示例程序构建并测试了一个模型,此模型根据鸢尾花的花萼和花瓣大小将其分为三种不同的品种。鸢尾花从左到右:山鸢尾(提供者:Radomil,依据 CC BY-SA 3.0 使用)、变色鸢尾(提供者:Dlanglois,依据 CC BY-SA 3.0 使用)和维吉尼亚鸢尾(

2021-04-27 00:38:38 2192 2

原创 推荐系统项目实战二(离线画像建立)

1 离线画像流程画像构建内容:画像的构建作为推荐系统非常重要的环节,画像可以作为整个产品的推荐或者营销重要依据。需要通过各种方法来构建。 文章内容标签化:内容标签化,根据内容定性的制定一系列标签,这些标签可以是描述性标签。针对于文章就是文章相关的内容词语。 文章的关键词、主题词 用户标签化:这个过程就是需要研究用户对内容的喜好程度,用户喜欢的内容即当作用户喜好的标签。 在用户行为记录表中,我们所记下用户的行为在此时就发挥出重要的作用了。用户的浏览(时长/频率)、点击、

2021-04-13 23:50:22 392

原创 推荐系统项目实战一(推荐业务架构介绍)

架构与业务流 基础数据层: 包括业务数据和用户行为日志数据。 业务数据主要包含用户数据和文章数据,用户数据即黑马头条注册用户的基础数据,文章数据在自媒体平台上传的文章的基本信息。 用户行为日志数据来源于前端埋点 业务批量存储在HDFS上以用作离线分析 日志数据实时流向Kafka以用作实时计算 数据处理层: 基础计算:基于离线和实时数据,对各类基础数据计算成用户画像、文章画像 召回与排序 召回环节使用各种算法逻辑从海量的文章中筛选出用户感兴趣的文章候选集合,

2021-04-13 23:31:58 919 1

原创 primal 、Dual 、 SVM and kkt

primal and dualKKThard margin svmsoft margin svm

2021-04-11 17:31:17 428

原创 Kafka

Kafka简介一、概述Kafka是LinkedIn(领英)开发后来贡献给了Apache的一套纯粹的发布订阅模式的、分布式的实时流消息队列 Kafka的特征: 发布订阅消息流 允许存储消息流并且提供了容错机制 实时处理消息流 Kafka的应用场景: 能够在系统或者应用之间,构建可靠的、实时的用于获取数据流的管道 能够构建一个转化或者处理数据流的应用 Kafka会接收到的数据存储到本地磁盘上,而且单节点的Kafka的吞吐量是60M/s~100M/s,Kafka底层采用"零拷

2021-04-07 23:50:29 317

原创 elasticsearch命令

1.实现搜索结构1.1准备索引文件1.2提供搜索服务2.lucene缺点不便之处2.1lucene是java语言对于其他想要使用lucene实现全文检索功能的语言.不友好2.2lucene本身没有实现分布式索引文件应该被切分成多分存储到不同服务器中,行程分布式,并且每一份数据都要保证高可用,还有分片主从复制.3.elasticsearch引入搜索服务3.1介绍elasticsearch是一个底层封装了lucene实现的全文检索功能的搜索服务(web应用...

2021-04-07 23:38:45 111

原创 redis的基础命令

redis概括1.定义redis是一个,nosql,key-value,非关系型的,内存运行,单进程单线程的,可持久化,支持分布式的,实现缓存,数据库技术。1.1nosqlNot Only Structured query language,不仅结构化查询语言。SQL结构化查询语言。说明redis可以存储非结构化数据。1.2key-valueredis存储数据的基本结构 键值对 key-value-一条数据。非结构化数据的一种处理结构方式,很多技术在存储非结构...

2021-04-07 23:21:59 247

原创 rabbitmq

2.消息队列提升单位时间并发,一种消峰的处理2.1消息队列历史早期是为了解决通信强耦合在这种通信中,任何一个步骤出现问题,都会造成通信重新执行一遍.可以通过引入队列的概念,将通信过程,解耦.随着消息队列的使用,不断发展,壮大,可以处理更多的业务逻辑,比如消峰(高并发消除峰值)有的游戏服务器为了防止连接超过服务器处理上限,丢失玩家,做一个派对,您稍等,服务器爆满,您现在排在3789位.2.2rabbitmq启动访问web任何一个...

2021-04-07 22:35:39 648

原创 指数分布、广义线性模型

1 指数分布2 广义线性模型

2021-04-02 21:46:08 132

excel神经网络公式推导

excel手撕神经网络,小白也能看懂的神经网络

2023-12-17

python随机子空间法.py

随机子空间法的python实现,用于振动信号模态识别

2019-05-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除