#知识点
文章平均质量分 59
yolandaxym
憨憨分析师
展开
-
数据不平衡的解决方法——采样(sampling)
文章目录采样方法欠采样(Undersampling)过采样(Oversampling)SMOTE(Synthetic Minority Oversampling TechniqueADASYN除了采样,还有什么方法?采样方法现在数据集,N有 a+b条数据,类A 有a个数据,类b 有b个,且b > a.欠采样(Undersampling)将大的数据集变小。从B中随机生成a个数据,即 random(B,a)。最终组成数据集 N’ = A.a + B.a过采样(Oversampling)将小原创 2021-04-14 17:10:43 · 658 阅读 · 0 评论 -
Web Analytics 2.0 学习笔记 (二):8个关键网站指标
1. visits(访问)和visitors(访客)visits:会话数(Session),由这个会话中的第一次请求和最后一次请求决定。独立访客(unique visitors,UV):cookie数。UV很接近,但不完全是真实独立的人数。有些浏览器会禁用cookie,会导致UV受影响(第三方cookie被禁用的比率 10-30 % 大于第一方cookie 2-5%)。 *基于从用户...原创 2020-01-02 18:09:30 · 297 阅读 · 0 评论 -
相关性分析
1. 图表 折线图、散点图2. 协方差及协方差矩阵 协方差:用来衡量两个变量的总体误差。(只能对两组数据进行分析)弊端:无法对相关的密切程度进行度量正值:正相关(两个变量变化趋势一致)负值:负相关零:不相关(两个变量相互独立)3. 相关系数(correlation coefficience) 可以对相关的密切程度进行度量弊端:因为没有模型,所以无法进行预测...原创 2019-11-28 17:57:52 · 1761 阅读 · 0 评论