
数据挖掘
文章平均质量分 89
狂龙骄子
将相本无种,男儿当自强。
熟悉Nginx、Redis、ActiveMQ、RocketMQ、Docker、K8S等Linux环境运维;
熟练运用DevOps(Git、Maven、Gradle、Jenkins、Shell);
熟练运用DataStage ETL大数据开发、ETL环境自动化运维;
熟练运用Spring、Dubbo开发;
对电商行业,分布式、微服务框架的开发和设计有较深入理解……
展开
-
大数据统计之卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。卡方检验分为拟合度的卡方检验和卡方独立性检验。在大数据运营场景中,通常用在某个变量(或特征)值是不是和因变量有显著关系。通俗来讲:卡方检验就是检验两个变量之间有没有关系。转载 2022-09-18 15:50:47 · 4209 阅读 · 1 评论 -
数据挖掘中常见的9种距离度量方法
在数据挖掘中,需要计算样本之间的相似度,数据科学家 Maarten Grootendorst 介绍了 9 种距离度量方法:欧氏距离(Euclidean Distance)、余弦相似度(Cosine Similarity)、汉明距离(Hamming Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(Chebyshev Distance)、闵氏距离(Minkowski)、雅卡尔指数(Jaccard Index)、半正矢(Haversine)、Sørensen-Dice 系数转载 2022-08-21 18:30:00 · 2144 阅读 · 0 评论