阅读
文章平均质量分 82
阅读专栏是以分享读书笔记为核心的栏目, 而且不仅仅局限于技术书籍;
01码匠
十里风雨,二两酒。
展开
-
第 5 章 机器学习技术的应用(中)
原文机器学习技术的实施方法特征处理特征工程的重要性需要同时掌握理论方法和业务逻辑才能提取有效的特征;在特征方面拥有最大的自主性和探索性;指征能力, 该特征的大小变化对最终结果的大小变化会在什么方向起到多大的作用;用户ID类特征ID特征, 指为每个用户分配一个唯一ID, 将这组唯一ID作为一组 One-Hot 特征, 每个用户在这组特征中只有一个特征; 具有个性化程度最强;学习到一个用户整体的点击偏好, 承担学习全局偏置的功能;将用户ID与物品侧的非ID类特征交叉组合, user_id+u原创 2021-03-03 09:02:53 · 489 阅读 · 0 评论 -
第 5 章 机器学习技术的应用(上)
原文机器学习技术概述让计算机在没有被显示编程的情况下具有自主学习的能力;学习出特征和目标之间具体的相关性;学习结果的用法: 预测, 推断(inference);推荐系统中的应用场景推荐系统的本质是匹配;推荐结果排序传统的方式是利用公式来定义排序规则, 机器学习是选择具有良好描述能力的规则系统来服务于系统;用户兴趣建模用户兴趣的捕捉和预测, 捕捉即对用户行为的客观记录; 预测则基于行为记录对用户将来可能感兴趣的内容进行预测;候选集召回类似排序问题;优点:机器学习系原创 2021-03-02 09:15:32 · 299 阅读 · 0 评论 -
第 4 章 算法融合与数据血统
原文关联规则算法, 由于限制较大, 所以相关性较强, 但覆盖率较低;协同过滤算法, 覆盖率更高, 相关性较差;以上两者基于行为, 有冷启动问题, 所以需要内容相关性算法来托底;三种算法的融合得出最终的结果;数据血统: 对数据的来源进行记录与分析的相关数据和过程;线性加权融合scorei=∑j(wj×scorej,i)score_i = \sum_j(w_j \times score_{j,i})scorei=j∑(wj×scorej,i)w, 对该推荐物品使用的推荐算法的权重;原创 2021-02-23 09:01:42 · 544 阅读 · 1 评论 -
读书笔记 - 从零开始构建企业级推荐系统
目录 第 1 章 推荐系统的时代背景 2021年2月19日 第 2 章 推荐系统的核心技术概述 2021年2月20日 第 3 章 基础推荐算法 2021年2月22日 第 4 章 算法融合与数据血统 第 5 章 机器学习技术的应用 第 6 章 用户画像系统 第 7 章 系统效果评测与监控 第 8 章 推荐效果优化 第 9 章 自然语言处理技术的应用 第 10 章 探索与利用问题 第 11 章 推荐系统架构设计 第 12 章 推荐系统工程.原创 2021-02-22 09:28:08 · 504 阅读 · 2 评论 -
第 3 章 基础推荐算法
原文相关性召回+点击率排序推荐逻辑流程架构根本任务: 匹配匹配过程步骤:相关性召回, 对用户做360度全方位扫描, 尽量多的描述和覆盖用户可能感兴趣的高质量的物品;候选集融合, 重点关注多样性和相关性的均衡, 召回算法的优先级等问题;结果排序, 按照某一确定目标进行排序;业务干预分层明确的逻辑架构, 有利于项目整体的并行化和效果调优的并行化;召回算法的基本逻辑匹配的常用计算路径:直接计算用户与物品的相关性;用户到物品的行为权重+物品与物品的相关性 => 用户与物品的相原创 2021-02-22 09:23:42 · 238 阅读 · 0 评论 -
第 2 章 推荐系统的核心技术概述
原文多组件, 多模块, 多数据源构成; 涉及用户, 物品, 行为, 上下文等数据;计算形式包括大数据平台上的批量计算/挖掘/训练, 流式数据的实时处理, 线上的实时服务;核心逻辑拆解核心目的: 为用户找当前场景下最具相关性的物品或物品集合;以用户兴趣为轴:P(item∣user)=∑interest(P(item∣interest)×P(interest∣user))P(item|user)=\sum_{interest} (P(item|interest) × P(interest|user原创 2021-02-20 08:28:59 · 741 阅读 · 1 评论 -
第 1 章 推荐系统的时代背景
原文推荐系统存在必要性流量利用流量的四个特点: 稀缺性, 在流量红利退去之后, 部分市场近似零和游戏, 获取流量成本不断增加; 不确定性, 引入用户后如何判断用户来到该网站的意图, 以便进一步针对性的营销活动, 满足用户需求并提高用户体验; 差异性, 基于用户个性, 所处情境不同; 连通性, 影响流量的流转效率;流量成本:外部成本, 将用户从站外拉到站内所需成本, 即获客成本, 包括广告, SEO, SEM, 促销等;内部成本, 流量引入站内后, 会占用其他页面的收益;推荐解决搜索无法解决原创 2021-02-19 09:10:19 · 943 阅读 · 0 评论 -
第 1 章 Python 和数据化运营
数据化运营: 指通过数据化的工具, 技术和方法, 对运营过程中的各个环节进行科学分析, 引导和应用, 从而达到优化运营效果和效率, 降低成本, 提高效益的目的;辅助决策式数据化运营数据驱动式数据化运营数据驱动式数据化运营工作流程:Python and Jupyter查看 Jupyter 可用内核 jupyter kernelspec list;批量到处 Python 的第三方库列表:pip freeze > requirements.txt批量安装第三方库列表到新环境中:pip原创 2020-07-09 23:04:50 · 429 阅读 · 0 评论