算法
文章平均质量分 59
记录关于机器学习,CV,NLP的项目,比赛,学习经历的专栏
一只小鱼儿
数据挖掘从业人员
展开
-
2019JDATA店铺购买预测大赛复盘(冠军方案分析+比赛记录)
文章主要包括赛题解读,数据探索(为了保证能让读者更加清楚了解数据特点,数据探索部分有引用了其他队伍的比较具有参考价值的数据图并给出了引用链接),数据集划分,特征构建,解题方案,模型设计和赛后总结。原创 2020-01-31 15:07:54 · 4859 阅读 · 6 评论 -
人脸识别相关项目笔记(附带参考github链接)
分享一下觉得比较有参考价值的论文和一些经验,也许有的论文的技术到现在已经算不上很先进了,但是经典的论文多读读总会有收获的。原创 2020-01-29 15:16:00 · 1043 阅读 · 0 评论 -
因果论在游戏场景中的应用
看到一篇关于因果推断的文章,觉得很受启发。数据挖掘ing_一只小鱼儿_CSDN博客-算法,大数据,数据分析领域博主游戏场景中做数据分析时会经常遇到文中提到的情况,比如要分析对局情况对于玩家留存的影响,做了一番数据分析后发现败的越多反而导致玩家玩的次数越多,当然也许是因为...原创 2022-01-27 00:15:09 · 2242 阅读 · 0 评论 -
关于图网络/图神经网络在游戏中的应用场景调研
总结了自己平时看到图网络相关的一些应用场景,后面有相关需求时可以考虑尝试一下:1. 利用游戏内玩家的交互行为构造有向/无向图 + Random Walk生成玩家序列,然后利用w2v生成玩家向量,后面可以利用向量做相似度检索或者是作为特征。...原创 2022-01-26 23:37:08 · 3367 阅读 · 0 评论 -
游戏中道具投放业务的相关思考
文章内容为经验小结,出于隐私保护需要,不会涉及到包括产品,数据在内的任何具体信息。游戏中常用来衡量玩家群体付费的指标是arpu值,判断是否有效拉动了玩家群体付费通常可以通过arpu值的变化来确定,关于拉动玩家付费有很多种方式,最直接拉动的比如当前比较流行的游戏礼包,赛季通行证以及其他形式包装的付费模式(转盘,抽奖等),此外还有通过内容分发,体验优化提高玩家的在线时长,留存率等指标来间接达到拉动付费的目的,本次主要阐述近段时间在道具投放方面的一些经验小结,目录如下:道具投放模式 如何说服产品接入该业原创 2021-08-01 16:48:32 · 670 阅读 · 1 评论 -
游戏数据挖掘特征构造+后处理相关实践经验
游戏有很多类型,比如slg,moba,rpg等等。不同类型的游戏加上不同的业务场景导致在训练模型时所用到的特征也会有所不同,这篇文章记录一下特征工程方面的相关实践经验,持续更新ing。本次介绍相对通用的一些特征,主要分为基础信息,活跃,社交,付费几大类,在各个场景中具备比较高的复用性。基础信息账号id,服务器id,地理位置,设备信息等。活跃信息活跃情况:包括在线时长,在线天数,获取游戏经验,游戏道具,金币数量等。生命周期:离线天数,角色等级,最近登录日期,创建时长,在线...原创 2021-05-22 23:30:02 · 536 阅读 · 0 评论 -
PySpark+深度语义模型DSSM+获取embedding
背景:需要从大量道具中检索出用户喜欢的道具环境设置:deepmatch==0.1.3,deepctr[GPU]==0.7.5,pyspark==2.4.0,keras模型文件:import pandas as pdimport numpy as npimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layersfrom sklearn.utils import shuff原创 2021-04-24 18:14:08 · 1213 阅读 · 5 评论 -
PySpark+多任务学习模型MMOE实践
参考:https://github.com/drawbridge/keras-mmoe,作者用的是tensorflow1.15版本,根据线上环境需要换成了2.2版本的tensorflow。运行环境:pyspark==2.4.0,keras==2.2.4,tensorflow==2.2模型文件:#coding:utf-8import randomimport osimport pandas as pdimport numpy as npfrom sklearn.me..原创 2021-04-24 09:02:58 · 765 阅读 · 0 评论 -
商品推荐算法优化过程中的思考与总结(持续更新)
前不久对某个商品推荐业务场景进行了优化,经历近2个月的迭代,线上效果复盘,现将一些小感悟整理一下。出于隐私保护需要,文中不会涉及到具体信息。1.首先是模型迭代习惯上的改进,刚入职那会儿觉得自己能记住每次的改动就没有做详细的记录,看起来也没有啥问题。后面业务逐渐忙了起来,日常工作会在不同业务中切来切去,有时候上线一个模型后没有很详细的记录改动情况,等迭代个几次回过头来复盘效果自己都觉得头大,从那以后自己每次迭代后一定会做一个比较详细的记录,这样复盘时就会一目了然,做了哪些改动有什么效果。2.感受.原创 2021-01-16 20:14:37 · 2363 阅读 · 3 评论 -
社区内容智能推荐项目实践复盘
注:下面所述文字均仅包含个人的一些实践经验总结,出于隐私保护需要隐去相关具体信息。背景最近对某社区进行内容智能分发算法的开发,平台包括app内嵌端,web端,移动端,社区内容包括文字,图片,视频,下面还有很多细分场景。如果按照传统离线推荐方式在每种场景下给出推荐列表,开发量和存储量将比较大,在人力和时间有限的情况下考虑实时推荐处理,即采用“实时条件过滤+排序”的方式给出最终推荐结果。方案简介1.ES内容库维护:用户发布/删除/修改内容记录实时更新到ES库,用于检索。2.Red..原创 2021-01-16 10:43:20 · 620 阅读 · 0 评论 -
数据挖掘/算法相关资源(工具)整理贴_1.0
工欲善其事必先利其器,这里有一些不错的学习资源或者工具给对AI感兴趣的小伙伴:科研相关https://sci-hub.tw/在学校外面访问不了学校图书馆论文库资源时,搜SCI之类的外文文献可以用这个https://arxiv.org/收录科学文献预印本的在线数据库,每个人都可以免费地访问全文数据https://paperswithcode.com/ follow专业前沿论文【划重点,有源码】,各个领域state of the art,这个网站很方便https://githu...原创 2020-06-15 22:39:32 · 398 阅读 · 0 评论 -
天池卫星图像识别比赛(决赛排名71/1329+附github链接+比赛记录)
Alibaba-Cloud-German-AI-Challenge-2018比赛链接:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100067.5678.1.3e7731f5WP7NmY&raceId=231683github链接:https://github.com/colabin/Alibab...原创 2020-01-29 15:38:30 · 2096 阅读 · 0 评论 -
离散粒子群优化应用到时间窗车辆调度问题(matlab+附github链接)
项目简介:最近需要实现一篇论文的算法,讲的是将PSO(粒子群算法)应用到TSPTW问题(时间窗车辆调度问题)上,查询了一些资料,以往的资料大多是蚁群算法的应用,所以就试着自己一步步完成这个算法。参考论文:[1]A Novel Set-Based Particle Swarm Optimization Method for Discrete Optimization Problem...原创 2020-01-29 15:24:56 · 1801 阅读 · 6 评论 -
基于window10系统的docker+auto-sklearn环境搭建记录
整理了一下以前打比赛时在自己笔记本上尝试搭建auto-sklearn的过程,给大家一个参考~笔者在公司实习训练模型时简单地使用了一下docker,当时就觉得十分方便,简单来说有4点:1.模块化,有一个配置好了程序运行环境docker意味着当你换一台服务器时就不用再重新配置环境,挂载好资源目录,然后直接把docker扔上去就可以训练模型了。而且实习那会儿同事将不同docker绑定到不同GPU上面进行相关测试,觉得确实挺方便的。2.隔离功能,当一台服务器上面很多用户时你可以体会到有一个隔离的系统的好原创 2020-06-29 06:47:34 · 936 阅读 · 0 评论