- 博客(12)
- 收藏
- 关注
原创 因果推断大集合 从0-1的因果知识(一篇)
文章介绍了几类经典的因果推断算法(metalearning、因果森林、连续因果变量、PID、小样本、帕累托最优等),在实际营销场景可结合具体算法快速部署,结果评估中结合AA波动、AB显著差异等方法确定效果的持续稳定性。
2024-05-14 11:24:21
1506
1
原创 因果推断系列--1.入门介绍篇
因果推断是一种研究因果关系的方法,旨在确定一个因素是如何导致另一个因素或事件发生的。在统计学和机器学习领域,因果推断是一种从数据中推断因果关系的方法。传统的统计分析方法主要关注相关性,即统计两个变量之间的关系,并通过相关系数或回归分析来衡量它们之间的相关性。然而,仅通过相关性分析无法确定这种关系是否具有因果性。因为相关性只是表明两个变量之间存在某种关联,而不一定暗示其中一个变量是另一个变量的原因。因果推断旨在通过利用随机性试验或者观察到的数据,来确定两个事件或变量之间的因果关系。
2023-07-14 16:42:12
481
原创 图神经网络系列(gnn)及其实现--小白系列
本文将介绍几种常见的GNN模型,包括GCN、SAGE、GAT、GATNE和Node2Vec,并对它们的算法原理、输入输出、代码实现以及优缺点进行详细讨论。19.优点:Node2Vec模型能够学习到节点的低维嵌入向量,并考虑节点之间的相似性,适用于节点分类、节点聚类等任务。15.优点:GATNE模型能够学习到节点和边的嵌入向量,并考虑到节点和边的关系,具有较好的表达能力。3.优点:GCN具有参数共享和局部连接性的优势,能够学习节点的局部结构信息,并具有较强的泛化能力。10.输出:更新后的节点特征矩阵。
2023-07-07 10:43:25
2493
原创 数据处理中的sql函数(mysql,hive,spark,hdfs,yarn)
常见sql函数对比在利用sql进行数据处理过程中,往往会涉及较多需要使用的api问题,大体分类可为,一般函数,窗口函数,时间函数这几类,通过对这几类的常见api进行归类方便后续使用查看函数名hivespark示例sql时间相减字符替换时间+T排序函数行转列函数条件函数当前时间距离T字符串反转表join...
2023-05-23 19:58:13
358
1
原创 Machine Learning-based Selection of Graph Partitioning Strategy Using the Characteristics of Graph D
分析大型图数据是许多现代应用程序的重要部分,例如社交网络。由于其巨大的计算复杂性,通常采用分布式处理。这需要将图数据分布在节点上,而分割策略的选择对任务的执行时间有很大影响。然而,并不存在一个适用于任意图数据和算法的通用分割策略。分割策略的性能取决于图数据和算法的特性。此外,由于图数据和算法的复杂性,手动识别最佳分割策略也是不可行的。在这项工作中,我们提出了一种基于机器学习的方法,为给定的图和处理算法选择最合适的分割策略。
2023-05-22 14:35:21
329
2
原创 spark(scala,python)的基本概念,调优,常见错误问题分析
spark-scala的基本概念,调优,常见错误问题分析spark(scala,python)的基本概念,调优,常见错误问题分析主要介绍spark的基本概念及对应数据在集群(yarn)上的配置调优,以及在运行中的常见问题定位,方便快速学习spark基础知识,上手开发基本概念sparkSession和sparkContext区别:sparkContext一般也叫sc,spakrSession习惯简称为spark变量。其中spark是包含sc的,sc是spark历史版本2.0之前常用的创建和操作RDD
2021-02-26 19:29:38
382
原创 python版本的tensorflow-CNN的简易多分类
首先还是推荐大家去tensorflow官网去看一下,或者中文社区的tensorflow官网如何用Python搭建一个简易的多分类模型首先大家得先安装上tensorflow,版本是1.4.1的,我用的Python版本是3.6的,高版本是潮流了,其他的配置包是anaconda3.6上的假设我有个test.csv文件,这个文件是2706维度的,其中2704维度是特征,2维度为label,就是个二分...
2019-09-05 11:07:11
2376
原创 通俗的理解PCA怎么实现降维的?
PCA主成分分析,基本思想是利用基的概念,基一定要保证不相关,所以在向量上体现即为协方差为0,在基上的投影效果越分散越好,数学上即为方差大,所以pca选择方差最大的K个为主成分,这里的方差最大的K个即为特征值最大的K个,意义是一样的。上面的这句话可能大家觉得乱七八糟,所以对上面的出现过的词进行逐一解释1....
2019-03-27 20:27:16
283
原创 LR在排序上的应用
如何用LR进行rank排序?LR介绍排序问题LR应用在排序问题上Spark 上的LR代码应用LR介绍逻辑回归(logistic regression)是一种广义的线性回归分析模型,最常见的应用是二分类或多分类的分类中,是一种经典的利用对数损失函数的判别式分类算法。二分类问题的概率与自变量之间的关系图形往往是一个S型曲线,如图所示,采用的Sigmoid函数实现排序问题在进行数据分析中,我...
2019-03-11 20:13:33
2846
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人