机器学习
从概率、统计、优化理论的角度探讨机器学习原理;
从数据处理、工程实现角度探讨机器学习的应用...
Sergio Li
这个作者很懒,什么都没留下…
展开
-
数据预处理 | Data Preprocessing
归一化和标准化定义https://en.wikipedia.org/wiki/Feature_scaling#Rescaling_(min-max_normalization)归一化和标准化区别(摘自https://www.jianshu.com/p/95a8f035c86c)归一化是将样本的特征值转换到同一量纲下把数据映射到[0,1]或者[-1, 1]区间内,仅由变量的极值决定,因区...原创 2019-09-29 13:14:54 · 487 阅读 · 0 评论 -
数据分析概率题
1. 扑克牌54张,平均分成2份,求这2份都有2张A的概率。M表示两个牌堆各有2个A的情况:M=4(25!25!) N表示两个牌堆完全随机的情况:N=27!27!所以概率为:M/N = 926/53*172.男生点击率增加,女生点击率增加,总体为何减少?因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。 如原来男性20人,点击1人;女性100人,点击99人,总点击率100/...转载 2020-01-05 09:32:21 · 2805 阅读 · 0 评论 -
机器学习概念 | ML Concepts
Essentially, the terms "classifier" and "model" are synonymous in certain contexts; however, sometimes people refer to "classifier" as the learning algorithm that learns the model from the training da...翻译 2019-09-29 13:16:04 · 296 阅读 · 0 评论 -
我理解的数据科学 | Data Science in my eyes (Version 5)
统计是什么?机器学习是什么?他们有什么关系?在本科酒店管理专业有门统计学课,学完后我知道统计是小学数学就学的平均数,是做人口统计等工作时采用的抽样调查;很幸运地,后来我对数据感兴趣后,在研究生课程里又学了一遍统计(是结合概率论一起学的,作为学习机器学习算法的入门课),这时候引入的概念多了起来,还和概率论纠缠不清,包括随机数,各种分布,假设检验,置信区间。总结概括,其最核心、有挑战性、最有趣的就...原创 2020-01-01 14:44:59 · 326 阅读 · 2 评论 -
统计概率基础总结
1. 中心极限定理CLT2. 参数估计 与 假设检验 Parameter Estimatin vs Hypothesis Testing3. p value3.置信区间 Confidence Interval4. 协方差、方差、 相关系数 Covariance, Variance and Correlation Coefficient...原创 2020-01-05 09:31:15 · 115 阅读 · 0 评论 -
测量非线性关系 | measure non-linear dependence
Since there is nofixedform of function which can be used(At least I have not found yet.). There are multiple straightforward solutionsfor doing this, such as spline, neural net or generalized addit...原创 2020-01-01 12:53:06 · 162 阅读 · 0 评论 -
测量线性关系 | measure linear dependence
首先,回顾下测量线性关系的工具。First, let's recall the tool for the measurement of linear dependence.皮尔森系数r可以用来测量两个变量之间的线性关系。因为它取决于数据的分布用于两个变量都符合正态分布的情况,所以也被称为有参数的相关性测试。一般可视化时图中拟合出的的线也被称为线性回归曲线。Pearsoncorrela...原创 2020-01-01 10:16:48 · 1017 阅读 · 0 评论