自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 因果推断大集合 从0-1的因果知识(一篇)

文章介绍了几类经典的因果推断算法(metalearning、因果森林、连续因果变量、PID、小样本、帕累托最优等),在实际营销场景可结合具体算法快速部署,结果评估中结合AA波动、AB显著差异等方法确定效果的持续稳定性。

2024-05-14 11:24:21 1506 1

原创 因果推断系列--1.入门介绍篇

因果推断是一种研究因果关系的方法,旨在确定一个因素是如何导致另一个因素或事件发生的。在统计学和机器学习领域,因果推断是一种从数据中推断因果关系的方法。传统的统计分析方法主要关注相关性,即统计两个变量之间的关系,并通过相关系数或回归分析来衡量它们之间的相关性。然而,仅通过相关性分析无法确定这种关系是否具有因果性。因为相关性只是表明两个变量之间存在某种关联,而不一定暗示其中一个变量是另一个变量的原因。因果推断旨在通过利用随机性试验或者观察到的数据,来确定两个事件或变量之间的因果关系。

2023-07-14 16:42:12 481

原创 图神经网络的应用

图神经网络简介

2023-07-14 16:31:43 490

原创 图神经网络系列(gnn)及其实现--小白系列

本文将介绍几种常见的GNN模型,包括GCN、SAGE、GAT、GATNE和Node2Vec,并对它们的算法原理、输入输出、代码实现以及优缺点进行详细讨论。19.优点:Node2Vec模型能够学习到节点的低维嵌入向量,并考虑节点之间的相似性,适用于节点分类、节点聚类等任务。15.优点:GATNE模型能够学习到节点和边的嵌入向量,并考虑到节点和边的关系,具有较好的表达能力。3.优点:GCN具有参数共享和局部连接性的优势,能够学习节点的局部结构信息,并具有较强的泛化能力。10.输出:更新后的节点特征矩阵。

2023-07-07 10:43:25 2493

原创 数据处理中的sql函数(mysql,hive,spark,hdfs,yarn)

常见sql函数对比在利用sql进行数据处理过程中,往往会涉及较多需要使用的api问题,大体分类可为,一般函数,窗口函数,时间函数这几类,通过对这几类的常见api进行归类方便后续使用查看函数名hivespark示例sql时间相减字符替换时间+T排序函数行转列函数条件函数当前时间距离T字符串反转表join...

2023-05-23 19:58:13 358 1

原创 Machine Learning-based Selection of Graph Partitioning Strategy Using the Characteristics of Graph D

分析大型图数据是许多现代应用程序的重要部分,例如社交网络。由于其巨大的计算复杂性,通常采用分布式处理。这需要将图数据分布在节点上,而分割策略的选择对任务的执行时间有很大影响。然而,并不存在一个适用于任意图数据和算法的通用分割策略。分割策略的性能取决于图数据和算法的特性。此外,由于图数据和算法的复杂性,手动识别最佳分割策略也是不可行的。在这项工作中,我们提出了一种基于机器学习的方法,为给定的图和处理算法选择最合适的分割策略。

2023-05-22 14:35:21 329 2

原创 数据挖掘xgb使用总结

数据挖掘xgb使用总结1.数据挖掘背景2.常见模型及特点

2022-07-20 17:24:41 7841

原创 spark(scala,python)的基本概念,调优,常见错误问题分析

spark-scala的基本概念,调优,常见错误问题分析spark(scala,python)的基本概念,调优,常见错误问题分析主要介绍spark的基本概念及对应数据在集群(yarn)上的配置调优,以及在运行中的常见问题定位,方便快速学习spark基础知识,上手开发基本概念sparkSession和sparkContext区别:sparkContext一般也叫sc,spakrSession习惯简称为spark变量。其中spark是包含sc的,sc是spark历史版本2.0之前常用的创建和操作RDD

2021-02-26 19:29:38 382

原创 python版本的tensorflow-CNN的简易多分类

首先还是推荐大家去tensorflow官网去看一下,或者中文社区的tensorflow官网如何用Python搭建一个简易的多分类模型首先大家得先安装上tensorflow,版本是1.4.1的,我用的Python版本是3.6的,高版本是潮流了,其他的配置包是anaconda3.6上的假设我有个test.csv文件,这个文件是2706维度的,其中2704维度是特征,2维度为label,就是个二分...

2019-09-05 11:07:11 2376

原创 通俗的理解PCA怎么实现降维的?

PCA主成分分析,基本思想是利用基的概念,基一定要保证不相关,所以在向量上体现即为协方差为0,在基上的投影效果越分散越好,数学上即为方差大,所以pca选择方差最大的K个为主成分,这里的方差最大的K个即为特征值最大的K个,意义是一样的。上面的这句话可能大家觉得乱七八糟,所以对上面的出现过的词进行逐一解释1....

2019-03-27 20:27:16 283

原创 nlp实现备注name提取

如何进行name提取?

2019-03-11 20:16:12 635

原创 LR在排序上的应用

如何用LR进行rank排序?LR介绍排序问题LR应用在排序问题上Spark 上的LR代码应用LR介绍逻辑回归(logistic regression)是一种广义的线性回归分析模型,最常见的应用是二分类或多分类的分类中,是一种经典的利用对数损失函数的判别式分类算法。二分类问题的概率与自变量之间的关系图形往往是一个S型曲线,如图所示,采用的Sigmoid函数实现排序问题在进行数据分析中,我...

2019-03-11 20:13:33 2846 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除