URSpecial.-CSDN博客

原创百面机器学习之特征工程 - Blog1

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习前言机器学习指计算机通过观察环境，与环境交互，在吸取信息中学习、自我更新和进步。进阶之路：《线性代数》《统计学习方法》《机器学习》《模式识别》《深度学习》。特征工程“巧妇难为无米之炊”，数据和特征便是米，模型和算法便是巧妇。特征工程是对原始数据进行一系列的工程处理，将其提炼为特征，作为输入给算法模型使用。1、特征归一化目的：消除数据特征之间的量纲影响，使得不同指标之间处

2020-07-11 21:45:42 238

原创算法面试到底是什么鬼？- Blog1

算法面试是什么让大家在面试算法问题时，能有一个合理的思考路径；和面试官一起探讨一个问题的解决方案，比如问题的细节和应用环境；比如对一组数据进行排序，我们先想到的快速排序O(logn)，但是它并不完全符合。因为不能局限于一个”正确的“答案，而是思考面试管真正想问的。正确还包含对问题独到的见解；优化；代码规范；容错性等。这组数据有什么样的特征：（1）有没有可能包含大量重复的元素？ --三路快排（2）是否大部分数据距离它正确的位置很近？是否近乎有序？–插入排序（3）是否数据的取值范围非常有限？比

2020-07-10 21:21:50 221

原创为什么精英这么用脑不会累

今天也要加油呀！前言最近读到一本挺有意思的书，教你如何从医学上认识到自己的情绪变化，并通过以下七种“脑内物质”提升自己的生活幸福感以及工作效率。根据书籍我总结了相关有趣的点。促进多巴胺分泌提升幸福感举个例子，我们去买彩票会分泌多巴胺，为什么，因为会有所期待，然后突然中奖了一夜暴富，心情激动得不得了同样会分泌多巴胺。由此可见在“目标”到“实现”的过程中会不断伴随这多巴胺，如何有效得分泌使得我们去实现想要的目标就值得我们“有计划”的去实施。·多巴胺主要功能强化学习步骤：1、设定明确.

2020-07-07 23:45:00 1704 1

原创推荐系统之Feed流 - Blog4

谈谈Feed流不知道大家有没有遇到过一刷抖音就停不下的情况呢？其实该平台就是利用了feed推荐让人“上瘾”，所以今天来谈谈feed流~1、Feed流定义feed是一种给用户持续提供内容的数据形式是由多个内容提供源组成的资源聚合器，由用户主动订阅消息源并且向用户提供内容。总结一下：feed是将用户主动订阅的若干消息源组合在一起形成内容聚合器，帮助用户持续地获取最新的订阅源内容。严格按照上述定义来说，我们通常说的搜索结果、排序列表都不能算作feed流。最早的web时代，订阅源一般是新闻网站以及博

2020-07-06 18:02:25 4919

原创 SQL题库大全之从入门到精通（不断更新）

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习今天你刷SQL了吗？害，坚持才是胜利。。。1. 查询同一用户的最后一次的消费记录Select * from 表 t where not exist (select 1 from 表 where t.ID = ID and time >t.time)2. 窗口函数–非常重要窗口函数可以进行排序，生成序列号等一般的聚合函数无法实现的高级操作。窗口函数的适用

2020-07-05 22:40:07 2013 3

原创机器学习那些事儿之基本步骤 - Blog1

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习机器学习基本步骤机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。对于刚接触的小白来说，如何搭建一整套机器学习模型，从输入进行训练并且预测得到输出结果往往是最为关心的，那么今天来介绍构建机器学习的流程。1. 提出问题明确是

2020-07-05 22:06:59 196

原创机器学习那些事儿之特征工程 - Blog2

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习特征工程所谓巧妇难为无米之炊，“特征工程”就扮演着米的角色。今天总结了特征工程里面涉及到的对数据进行分析并处理，包括异常值处理、缺失值处理、数据分桶、特征处理、特征构造、特征筛选及降维等。1、缺失值处理不处理：针对xgboost等树模型，有些模型有处理缺失的机制缺失太多：删除该列缺失部分：插值补全（均值/中位数/众数/建模预测/多重插补）、分箱处理（缺失值一个箱）2、异常值

2020-07-05 21:43:18 1158

原创 Hive那些事儿 - Blog1

关于Hive那些事情@今天我也要加油鸭Hive 安装和配置你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界...

2020-06-28 16:47:26 238

原创推荐系统之协同过滤 - Blog3

推荐系统核心流程：挖掘——》候选——》召回——》排序《——》（行为预测/CTR预估）

2020-06-26 16:58:22 249

原创推荐系统之召回策略 - Blog2

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习推荐系统流程海量 Item——召回（粗排）——候选集合——排序（精排）——排序列表—— 规则（多样化推荐）—— 推荐结果召回策略所谓召回，是指从上百千万的商品中，粗排出几百上千的商品，供打分模型精排。目前工业界的推荐系统，在召回阶段，一般都采取多路召回策略。比如典型的召回路有：基于用户兴趣标签的召回；基于协同过滤的召回；基于热点的召回；基于地域的召回；基于Topic的召回；

2020-06-26 16:54:38 1277

原创推荐系统那些事儿之初相见 - Vlog1

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习推荐系统WHATHOW无明确的索引词，根据用户画像、内容画像等各种信息为用户推荐他可能感兴趣的内容，达到延长用户停留时间的作用。1、画像1.1 获取数据数据是推荐系统的重要基石。主要包括用户数据、内容数据、环境数据。用户数据（用户画像的来源）基础数据：如性别、年龄、地区、爱好行为数据：如点赞、评论、分享等正向反馈，不感兴趣等负向反馈，阅读时长等隐形行为

2020-06-23 12:29:14 381 2

原创数据分析从0到1之搭建指标体系 - Blog3

今天你会搭建指标体系了吗？

2020-06-01 17:28:05 606

原创数据分析从0到1之AARRR模型 - Blog2

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习1、什么是AARRR模型？AARRR增长漏斗模型分别对应用户生命周期中的5个重要环节。Acquisition（获取）Activation（活跃）Retention（留存）Revenue（收益）Refer（传播）2、模型的关注点在哪？（1）用户获取作为模型的第一步，重要性也不言而喻。用户拉新，首先要去考虑的其实并不是各种渠道推广引流，而应该是产品上降低用户的使用门

2020-06-01 16:17:19 424 3

原创数据分析从0到1 - Blog1

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习1、业务是什么业务是以用户为核心，通过各种运营手段，将产品/服务提供给用户，并同时获取利润的系统。会涉及到用户（谁），产品（卖什么），运营（怎么卖），利润（结果）。2、常见的产品侧重和业务指标3、用指标解决业务问题喜马拉雅app为例，主要从从三个部分来谈业务：用户（谁）、产品（卖什么）、运营（怎么卖）1）用户分析用户需求，关注人群、场景、痛点，时长频率等因素。具体考率三

2020-05-29 12:27:03 216 1

原创读书笔记之Python数据分析与挖掘实战

数据挖掘是从大量数据（包括文本）中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势，并用知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程。总的来说就是发现业务趋势，揭示已知的事实，预测未知的结果。

2020-05-29 12:04:46 763 1

原创数据分析之前那些事

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习主动思考，理解商业需求1、话题讨论数据分析师是干什么？建立模型，优化指标（弱）；建立报表，监控指标变化；组织架构，未来目标发展；分析师的核心价值是什么？通过日常监控，发现问题；-》通过方案设计解决问题（理解背后的原因）也就是：发现-》解决-》发现；业...

2020-04-28 16:38:56 179

原创 Spark初相见-RDD/算子/执行流程/集群搭建

今天也要加油鸭～这是一份总结的学习笔记路漫漫其修远兮，吾将上下而求索可阅读可评论可分享可转载，希望向优秀的人学习前言1.什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoo...

2020-02-26 10:28:50 311

原创用多种语言（Java和Scala）实现SparkWordCount（单词统计）

Java优点：每一步都可以看到返回类型缺点：代码量多Scala优点：简洁，可省略代码缺点：不方便查看数据类型Java实现版本import javafx.scene.effect.FloatMap;import org.apache.spark.SparkConf;import java.lang.*;import java.util.Arrays;public cl...

2020-02-24 18:56:15 293

原创关于Scala那些事儿

今天也要加油鸭～前言Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上，并兼容现有的Java程序。java、Scala都是基于JVM的编程语言（文件编译成class文件保存），类相互之间可以调用，Scala并可以调用现有的Java类库；Spark1.6中使用的是Sacla2.10。面向过...

2020-02-20 20:52:33 215

qq_38995159的博客