2019年11月_Colin1996

12月 11月

原创数据埋点之指标口径学习

指标口径学习指标口径学习的意义主流业务指标口径运营商的指标口径指标口径学习的意义在我们定义数据埋点的过程中，我们需要了解整个系统架构的结构数据流，也需要明确每一个进入数据库字段的数据，究竟意味着什么，作为数据产品经理，了解对应的术语、定义、俗语、能够快速的对我们整体数据库的架构产生一个明确的了解，从而才能够确定究竟在什么时间什么样的方式来进行数据的埋点采集主流业务指标口径以下指标口径均为个...

2019-11-29 17:12:03 1480

原创线性回归与最小二乘法

简单线性回归&最小二乘法简单线性回归推导思路最小二乘法损失函数小结代码的实现一元线性回归多元线性回归简单线性回归而简单线性回归是属于回归(regression)，即label为连续数值型(continuous numerical variable)，如：房价、股票价格、降雨量等。所谓简单，是指只有一个样本特征，即只有一个自变量；所谓线性，是指方程是线性的；所谓回归，是指用方程来模拟变...

2019-11-29 16:39:04 1309

机器学习特征工程1.什么是特征工程2.数据归一化2.1 最值归一化的实现2.2 均值方差归一化的实现2.3 Sklearn中的归一化3.KNN算法的优缺点探讨3.1KNN的主要优点:3.2 KNN的主要缺点3.3 KNN优化之KD树3.3.1 KD树的原理3.3.2 Sklearn中KDTree1.什么是特征工程特征在机器学习以及数据挖掘的过程中是最为重要的一个指标，在美团机器学习实践中曾探讨...

2019-11-21 10:15:10 897 1

原创数据可视化学习的导论

数据可视化学习导论1.数据可视化学习的意义2.数据可视化的基本理念2.1数据的基本种类2.2 数据图标的聚焦性和可读性2.3 优化选择可视化图标1.数据可视化学习的意义在如今的大数据时代,海量的数据分析软件，数据分析工具层出不穷，在数据科学探索领域，人们不断的进行深入，而在整个数据科学或者说在机器学习的整个过程中，数据的可视化似乎看上去可有可无，但是这确实让人们进一步深入了解或者是浅层理解数据...

2019-11-20 20:29:44 635

原创数据埋点的应用与探讨

数据埋点的应用与探讨1.数据埋点是什么?2.如何使用数据埋点?1.数据埋点是什么?一般的数据可分为两大类:流量数据，以用户访问产品，记录用户浏览行为核心的埋点数据日志；业务数据，以生产系统内存储的业务表单数据为核心的业务库数据记录；目前更多的数据挖掘是基于业务数据以及相关的业务知识为基础和前提的情况下对数据进行深入的分析和挖掘.而数据埋点则更多的是采集用户的行为数据,通过用户的行为...

2019-11-15 16:49:59 282

原创机器学习分类与线性评价结果

KNN-machine leanring notes1.分类准确度够用吗?2.什么是混淆矩阵?3.究竟什么评价指标更合适?4.ROC曲线4.1分类阈值、TPR和FPR4.1.1分类阈值4.1.2 TPR4.1.3 FPR4.2 ROC曲线4.2.1 分析5 AUC6 分类精确度总结7 线性回归的评价指标8 线性回归代码评价的实现8.1 简单线性回归预测9 R Square介绍10 简单线性回归总结...

2019-11-13 15:59:33 417

原创机器学习KNN算法(二)

KNN-machine leanring notes1.数据预处理2.分类精准度3.超参数3.1 超参数简介3.2超参数一-对于KNN来说寻找最好的K3.3 超参数二-权重3.4超参数网格搜索总结1.数据预处理通常情况下我们的数据集都是按照一定规律导出,这时我们需要通过一定的方法都数据集进行打乱,这样才能更好的符合随机抽样的过程# 方法1# 使用concatenate函数进行拼接，因为传入的...

2019-11-13 15:23:07 392

原创机器学习KNN算法使用指南

KNN-machine leanring notesKNN 算法简介KNN 算法流程KNN实现过程Sklearn总结KNN 算法简介kNN(k-NearestNeighbor)，也就是k最近邻算法。顾名思义，所谓K最近邻，就是k个最近的邻居的意思。也就是在数据集中，认为每个样本可以用离他最距离近的k个邻居来代表。–百度该算法就是用来找数据点在该纬度的数据空间中，离哪一些点的样本更接近，通过相...

2019-11-05 16:27:04 1469