一只小鱼儿-CSDN博客

原创 2019JDATA店铺购买预测大赛复盘（冠军方案分析+比赛记录）

文章主要包括赛题解读，数据探索(为了保证能让读者更加清楚了解数据特点，数据探索部分有引用了其他队伍的比较具有参考价值的数据图并给出了引用链接)，数据集划分，特征构建，解题方案，模型设计和赛后总结。

2020-01-31 15:07:54 5692 6

原创天池卫星图像识别比赛（决赛排名71/1329+附github链接+比赛记录）

Alibaba-Cloud-German-AI-Challenge-2018比赛链接：https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100067.5678.1.3e7731f5WP7NmY&raceId=231683github链接：https://github.com/colabin/Alibab...

2020-01-29 15:38:30 2224

原创人脸识别相关项目笔记（附带参考github链接）

分享一下觉得比较有参考价值的论文和一些经验，也许有的论文的技术到现在已经算不上很先进了，但是经典的论文多读读总会有收获的。

2020-01-29 15:16:00 1201

游戏中常见的付费系统有道具商城，弹窗推送，神秘商人等等，之前做业务时只是做单点优化，逐一去优化各个入口的流量和单位收益，但是后来发现游戏整体收益的提升并不等于单个入口的收益相加，其中一部分原因就是之前提到的流水转移问题，后来一直在思考如何能更好地协调各个入口之间的关系，现在记录一下相关的思考。首先是明确各个模块的功能定位，这将有利于制定系统化的优化策略。由于这些入口定位不同，优化能带来的利润增长也是有差异的，下面我将从功能和优化两方面进行介绍。商城展示功能：侧重于方便玩家购买和满足玩家闲逛需

2022-04-17 10:48:13 3224

原创游戏付费中的金融学和心理学小知识

总结一下游戏付费模块涉及到的一些金融&心理学小知识，大家在游戏乃至生活中都能随时看到它们的影子，让我们看看它们是如何运作的。锚定效应：个体在不确定情境下的决策会受到初始无关锚影响，致使其随后的数值估计偏向该锚的一种判断偏差现象。某些游戏道具的官方定价会比较高，但是实际上可以通过很多别的途径以更低的价格买到该道具，因为锚定效应的影响消费者会觉得自己赚到了稀缺感：限时限量成交法就是用时间限制和数量限制来予以客户优惠，促成交易的方法。比如游戏中通过限时折扣，商品全服可购买余量等设计

2022-04-16 11:50:28 3695

原创因果论在游戏场景中的应用

看到一篇关于因果推断的文章，觉得很受启发。数据挖掘ing_一只小鱼儿_CSDN博客-算法,大数据,数据分析领域博主游戏场景中做数据分析时会经常遇到文中提到的情况，比如要分析对局情况对于玩家留存的影响，做了一番数据分析后发现败的越多反而导致玩家玩的次数越多，当然也许是因为...

2022-01-27 00:15:09 2501

原创关于图网络/图神经网络在游戏中的应用场景调研

总结了自己平时看到图网络相关的一些应用场景，后面有相关需求时可以考虑尝试一下：1. 利用游戏内玩家的交互行为构造有向/无向图 + Random Walk生成玩家序列，然后利用w2v生成玩家向量，后面可以利用向量做相似度检索或者是作为特征。...

2022-01-26 23:37:08 3568

原创游戏中道具投放业务的相关思考

文章内容为经验小结，出于隐私保护需要，不会涉及到包括产品，数据在内的任何具体信息。游戏中常用来衡量玩家群体付费的指标是arpu值，判断是否有效拉动了玩家群体付费通常可以通过arpu值的变化来确定，关于拉动玩家付费有很多种方式，最直接拉动的比如当前比较流行的游戏礼包，赛季通行证以及其他形式包装的付费模式（转盘，抽奖等），此外还有通过内容分发，体验优化提高玩家的在线时长，留存率等指标来间接达到拉动付费的目的，本次主要阐述近段时间在道具投放方面的一些经验小结，目录如下：道具投放模式如何说服产品接入该业

2021-08-01 16:48:32 968 1

原创曹大-数据挖掘分享课程记录

记录一下曹大的课程中比较受用的一些点，并且分享工作中相关的一些体会，如果觉得不错，可以支持一下曹大的公众号（caoz的梦呓）和小密圈（caoz的小密圈）。1. 【一个基本逻辑是，先理解整体数据，再看细分数据，关联数据，以及综合评估影响因素。比如我们说电商的产品页下单率，我们看到了一个整体的下单率，然后要看不同类型产品的下单率对不对，不同渠道来源的下单率，不同用户画像的下单率，新用户和回访用户的下单率，不同促销手段的下单率。这就是细分数据，通过不同细分数据，形成对整体数据的综合认知，然后是关联因素，下单率

2021-07-11 23:59:54 707

原创游戏数据挖掘特征构造+后处理相关实践经验

游戏有很多类型，比如slg，moba，rpg等等。不同类型的游戏加上不同的业务场景导致在训练模型时所用到的特征也会有所不同，这篇文章记录一下特征工程方面的相关实践经验，持续更新ing。本次介绍相对通用的一些特征，主要分为基础信息，活跃，社交，付费几大类，在各个场景中具备比较高的复用性。基础信息账号id，服务器id，地理位置，设备信息等。活跃信息活跃情况：包括在线时长，在线天数，获取游戏经验，游戏道具，金币数量等。生命周期：离线天数，角色等级，最近登录日期，创建时长，在线...

2021-05-22 23:30:02 836

原创 Flink实践小结

这篇文章总结实时推荐系统中使用Flink流式计算的一些实践经验。数据源选择Kafka数据流，经过Flink SQL和自定义函数处理得到各种时间口径下的数据，作为特征传到模型，得到预测结果后向用户实时推送。其中涉及到的一些比较关键的点：a. Flink时间戳概念很重要，了解event time，processing time，watermark，窗口处理的相关知识对Flink如何处理数据会有更清晰的认识，可以参考一下极客时间《Flink核心技术与实践》相关章节。b. Flink目前支持利用Ja

2021-04-24 23:23:33 865

原创 Hive transformer分布式预测+写入Redis

Hive的transformer可以比较方便的自定义一些操作，可以利用这个方法将计算结果直接写入Redis。Hive脚本：#!/bin/bash. /etc/profilefield='user_info'base_path=xxxxxxxxxxxxtable_path=xxxxxxxxxxxxecho `date`": start loading data into redis."sql_cmd="SET hive.hadoop.supports.splittable.com

2021-04-24 20:05:55 568

原创 PySpark+深度语义模型DSSM+获取embedding

背景：需要从大量道具中检索出用户喜欢的道具环境设置：deepmatch==0.1.3,deepctr[GPU]==0.7.5,pyspark==2.4.0,keras模型文件：import pandas as pdimport numpy as npimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import layersfrom sklearn.utils import shuff

2021-04-24 18:14:08 1404 5

原创 PySpark+多任务学习模型MMOE实践

参考：https://github.com/drawbridge/keras-mmoe，作者用的是tensorflow1.15版本，根据线上环境需要换成了2.2版本的tensorflow。运行环境：pyspark==2.4.0,keras==2.2.4,tensorflow==2.2模型文件：#coding:utf-8import randomimport osimport pandas as pdimport numpy as npfrom sklearn.me..

2021-04-24 09:02:58 963

原创商品推荐算法优化过程中的思考与总结（持续更新）

前不久对某个商品推荐业务场景进行了优化，经历近2个月的迭代，线上效果复盘，现将一些小感悟整理一下。出于隐私保护需要，文中不会涉及到具体信息。1.首先是模型迭代习惯上的改进，刚入职那会儿觉得自己能记住每次的改动就没有做详细的记录，看起来也没有啥问题。后面业务逐渐忙了起来，日常工作会在不同业务中切来切去，有时候上线一个模型后没有很详细的记录改动情况，等迭代个几次回过头来复盘效果自己都觉得头大，从那以后自己每次迭代后一定会做一个比较详细的记录，这样复盘时就会一目了然，做了哪些改动有什么效果。2.感受.

2021-01-16 20:14:37 2694 3

原创 Hive中优化经验小结

常用优化手段•避免内存溢出将条目少的表/子查询放在 Join的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出的几率。•解决数据倾斜问题，多发生于数据在节点上分布不均匀，join时左边的表key分布比较集中（空值较多），count(distinct)字段存在大量值为NULL或空的记录等场景1. 参数控制hive.group..

2021-01-16 19:11:27 545

原创社区内容智能推荐项目实践复盘

注：下面所述文字均仅包含个人的一些实践经验总结，出于隐私保护需要隐去相关具体信息。背景最近对某社区进行内容智能分发算法的开发，平台包括app内嵌端，web端，移动端，社区内容包括文字，图片，视频，下面还有很多细分场景。如果按照传统离线推荐方式在每种场景下给出推荐列表，开发量和存储量将比较大，在人力和时间有限的情况下考虑实时推荐处理，即采用“实时条件过滤+排序”的方式给出最终推荐结果。方案简介1.ES内容库维护：用户发布/删除/修改内容记录实时更新到ES库，用于检索。2.Red..

2021-01-16 10:43:20 883

原创数据分析中的辛普森悖论

最近对相关指标进行数据分析的时候发现了一个很有趣的问题，记录一下。背景：针对某个产品的arpu值进行拆解https://www.sohu.com/a/235918522_114819

2020-10-11 22:53:10 1517

原创 Shell+Python/Java+Hive 日志数据切割入库实践经验总结

这篇文章对前不久做的一个数据切割的小项目做一个总结，会对其中涉及到的一些需要注意的事项进行补充说明。【出于隐私保护需要，文章只给出数据切割的通用流程参考】。背景：在日常的生产环境中，机器会源源不断产生日志数据，日志内容通常包括【日志路径】，【日志名】，【记录时间】，【字段键值对】等，需要对这部分数据进行整理和提炼，但是在这个过程中，通常会面临以下问题：1.在业务涉及到的场景比较多的情况下，日志类型也随之会很多，字段会更多2.业务维护过程中表的字段可能会不断变化在海量的日志数据下，上述问.

2020-10-07 01:00:11 468

原创 Win10+Myeclipse+Hadoop单机环境搭建

最近因为工作需要简单搭建了一下win10 64位+myeclipse+hadoop环境，记录一下相关流程备用。参考链接：https://zhuanlan.zhihu.com/p/47444650准备工具包1. jdk ：1.82. hadoop：2.6.4链接：https://pan.baidu.com/s/1_GKC8fQiEJFX2VCHnu0ZLQ 提取码：nlrp3.eclipse hadoop插件：链接：https://pan.baidu.com/s/1s6oTGRUKa...

2020-08-09 15:03:58 261

转载 TensorFlow学习记录：用TensorFlow_Serving部署模型并进行远程使用

4.11 综合案例：模型导出与部署学习目标目标掌握TensorFlow模型的导出(saved_model格式)掌握Tensorflow模型的部署掌握TensorFlow模型的客户端调用掌握TensorFlow模型的超参数调优使用应用无4.11.1 TensorFlow 模型导出在部署模型时，我们的第一步往往是将训练好的整个模型完整导出为一系列标准格式的文件，然后即可在不同的平台上部署模型文件。这时，TensorFlow 为我们提供了 SavedModel 这一格式。与前面介绍的 Ch

2020-07-15 20:45:19 1831

转载 kaggle编码categorical feature总结

对于 categorical 特征，我们有时需要对它作一些统计，得到统计特征。一种方式是对特征计数，统计feature value 出现的次数，或在某个类下的出现次数。这样可以当数值特征用，也可以必要的时候把不同的次数当做独立的特征(比如所有出现次数小于10的feature value，可以按次数分为10个特征)。【参考】1.https://blogs.technet.microsoft.com/machinelearning/2015/11/03/using-azure-ml-to-buil.

2020-07-02 12:49:39 1379

转载 Git使用教程

一：Git是什么？Git是目前世界上最先进的分布式版本控制系统。工作原理 / 流程： Workspace：工作区 Index / Stage：暂存区 Repository：仓库区（或本地仓库） Remote：远程仓库二：SVN与Git的最主要的区别？SVN是集中式版本控制系统，版本库是集中放在中央服务器的，而干活的时候，用的都是自己的电脑，所以首先要从中央服务器哪里得到最新的版本，然后干活，干完后，需要把自己做完的活推送到中央服务器。集中式版本.

2020-06-29 10:16:34 191

原创基于window10系统的docker+auto-sklearn环境搭建记录

整理了一下以前打比赛时在自己笔记本上尝试搭建auto-sklearn的过程，给大家一个参考～笔者在公司实习训练模型时简单地使用了一下docker，当时就觉得十分方便，简单来说有4点：1.模块化，有一个配置好了程序运行环境docker意味着当你换一台服务器时就不用再重新配置环境，挂载好资源目录，然后直接把docker扔上去就可以训练模型了。而且实习那会儿同事将不同docker绑定到不同GPU上面进行相关测试，觉得确实挺方便的。2.隔离功能，当一台服务器上面很多用户时你可以体会到有一个隔离的系统的好

2020-06-29 06:47:34 1119

原创攒机记录

作为一名偏软件方向的程序员，打算在毕业之前跟着室友好好学习一下攒机，以后硬件更新换代的时候也好自己捯饬，下面推荐给大家有趣的装机UP主教程，性能测试软件，文末还有电影动漫迷软件推荐。攒一台主机，购买的基础部件包括：机箱，主板，CPU，显卡，电源，内存条，硬盘，散热器，显示器，键鼠。因为笔者目前学校宿舍空间有限，而且希望主机便于携带以方便以后毕业搬家旅行之类的，所以是计划配置一个小型机箱，也就是ITAX型号的机箱，然后再根据自己的预算选择对应的ITAX主板，CPU等其他一系列部件进行搭配，因为每个人需求不

2020-06-29 06:07:08 669

数据挖掘ing

原创 2019JDATA店铺购买预测大赛复盘（冠军方案分析+比赛记录）

原创天池卫星图像识别比赛（决赛排名71/1329+附github链接+比赛记录）

原创人脸识别相关项目笔记（附带参考github链接）

原创关于游戏付费模块功能定位的思考

原创游戏付费中的金融学和心理学小知识

原创因果论在游戏场景中的应用

原创关于图网络/图神经网络在游戏中的应用场景调研

原创游戏中道具投放业务的相关思考

原创曹大-数据挖掘分享课程记录

原创游戏数据挖掘特征构造+后处理相关实践经验

原创 Flink实践小结

原创 Hive transformer分布式预测+写入Redis

原创 PySpark+深度语义模型DSSM+获取embedding

原创 PySpark+多任务学习模型MMOE实践

原创商品推荐算法优化过程中的思考与总结（持续更新）

原创 Hive中优化经验小结

原创社区内容智能推荐项目实践复盘

原创数据分析中的辛普森悖论

原创 Shell+Python/Java+Hive 日志数据切割入库实践经验总结

原创 Win10+Myeclipse+Hadoop单机环境搭建

转载 TensorFlow学习记录：用TensorFlow_Serving部署模型并进行远程使用

转载 kaggle编码categorical feature总结

转载 Git使用教程

原创基于window10系统的docker+auto-sklearn环境搭建记录

原创攒机记录

原创数据挖掘/算法相关资源（工具）整理贴_1.0

原创基于springMVC+myBatis的web报名系统（附github链接）

原创算法提案复盘

原创 Hadoop全分布式+Hive单节点部署实践记录

原创离散粒子群优化应用到时间窗车辆调度问题（matlab+附github链接）

原创本科腾讯暑期实习运营开发岗位相关记录

原创分布式爬虫（java+ 附github链接）

空空如也

Hadoop搭建环境报错，实在找不到方法

Spring+hibernate配置无效