python
文章平均质量分 66
梦想画家
开源软件爱好者,乐于博客分享,业余时间喜欢跑步和科幻,希望与意趣相投朋友一起学习交流。
展开
-
dbt snapshot命令及应用示例
DBT快照是跟踪数据随时间变化的强大工具。通过学习本教程,现在应该对如何创建和使用dbt快照有了较好的理解。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。原创 2024-09-21 08:10:40 · 727 阅读 · 0 评论 -
dbt seed 命令及应用示例
dbt seed命令是将静态数据加载到数据仓库中的强大工具。通过使用seed可以在dbt中保持转换逻辑,确保数据转换是一致的、版本控制的和代码可审查的。期待您的真诚反馈,更多内容请阅读数据分析工程专栏。原创 2024-09-19 19:09:38 · 611 阅读 · 0 评论 -
# dbt source & dbt source freshness命令详解
DBT source 表示数据仓库中的原始数据表,是DBT转换的基础数据源。dbt source不是直接引用这些表,而是提供了一种抽象,增强了可维护性和清晰度。通过将表声明为源,可以将其标记为转换的可信基础,从而启用数据新鲜度检查等功能。在业务上下文中,源可以表示原始销售数据、客户交易数据或库存数据。dbt source 命令设计用于管理基础数据源,它的主要子命令,可以检查原始数据表的新鲜度,确保数据是最新的、可靠的。原创 2024-09-19 19:07:28 · 873 阅读 · 0 评论 -
dbt compile 命令及应用
本文介绍了命令,包括应用场景、详细说明及注意事项。了解这些信息,有助于在项目中高效使用该命令。原创 2024-09-18 18:19:45 · 419 阅读 · 0 评论 -
dbt 常用11个必知命令
到目前为止,您应该已经很好地理解了基本的dbt命令,以及如何在数据转换项目中使用它们。这里没有涉及一些更复杂的参数选项,未来结合实际场景详细描述。实践出真知,行动起来吧。原创 2024-09-18 18:14:58 · 381 阅读 · 0 评论 -
Dbt基本概念与快速入门
dbt项目是包括在操作系统中特定目录里,其中包含对数据执行转换所需的所有内容。它包含许多.sql文件(称为模型)和YAML文件(用于配置)。创建dbt工程,可以在命令行中使用dbt init 命令。终端要求您输入与可用数据平台适配器对应的代码。因为只有DuckDB,所以可以按1。├── logs├── macros├── models├── seeds├── target├── tests模块化: 保持数据转换有组织,并将其划分为可管理的单元,使代码更容易理解和维护。原创 2024-09-16 10:24:11 · 1170 阅读 · 0 评论 -
分析工程涉及技术体系与工具
DBT是一个开源工具,它通过提供一种创建、测试和转换数据模型的方法,帮助数据工程师、分析工程师和数据分析师构建数据网格。数据团队利用dbt定义、测试和构建数据模型,以工程化理念落地数据仓库分层转换数据方法论,以便其他团队和应用程序可以轻松地使用数据仓库或数据中转换好的数据模型。数据建模能力数据建模功能允许团队通过使用简单且熟悉的、基于sql的语法来定义数据模型,使得数据工程师和数据分析师可以轻松地一起定义和测试数据模型。数据测试能力。原创 2024-09-15 11:12:02 · 585 阅读 · 0 评论 -
Scikit-Learn快速生成分类数据集
现在你学会了使用scikit-learn的make_classification函数生成不同类型数据集了吧。包括二分类或多分类、不平衡数据集、挑战性难分类的数据集等。更多参数可以查看官方文档。原创 2023-09-13 20:12:40 · 1994 阅读 · 0 评论 -
Python快速检验数据分布
本文介绍了如何利用python进行数据分布检验。,通过官方文档可以进一步学习其他参数的,实现更多数据检验能力。假设检验的前提是确定数据的分布,本文介绍Python检验数据样本是否服从一定分布。使用方法是柯尔莫可洛夫-斯米洛夫检验(Kolmogorov–Smirnov test,K-S test),K-S检验方法适用于探索连续型随机变量的分布,对于离散分布(二项分布和泊松分布)需要使用其他方法进行检验。原创 2023-08-23 11:59:29 · 2208 阅读 · 0 评论 -
Python生成中文词云图
本文介绍了Python如何生成词云,主要过程包括加载数据、中文分词、自定义形状、生成词云。上面过程可以进一步改进,如过滤停顿词,保持结果为文件或流,让其他应用直接调用。原创 2023-07-23 20:55:06 · 1673 阅读 · 0 评论 -
如何在Java中调用Python
本文介绍了如何从Java调用Python脚本,使用jython脚本引擎比ProcessBuilder类更简单。另外Python可以便捷搭建http应用,Java也可以通过HTTP协议直接调用HTTP服务实现交互。参考内容:https://www.baeldung.com/java-working-with-python。原创 2023-04-30 21:54:45 · 6042 阅读 · 1 评论 -
Python实现线性判别分析教程
Dk(x)=x∗(μk/σ2)–(μk2/2σ2)+log(πk)当有一组预测变量需要被分为两个类,一般使用逻辑回归模型。举例,使用信用分和平均存款余额预测贷款是否违约。但当预测变量有多种可能时,则一般会使用线性判别分析(linear discriminant analysis, 简称 LDA)....原创 2022-08-29 16:42:03 · 2954 阅读 · 0 评论 -
Python实现逻辑回归模型教程
理解多个预测变量与连续响应变量之间关系通常适用线性回归,但当响应变量为类别变量时需要适用逻辑回归。逻辑回归是尝试从数据集中把W观测记录分为不同类别的分类算法。相比于线性回归的响应值是连续变量,上述示例的响应变量仅包括两个值中的一个。...原创 2022-08-29 14:45:29 · 9747 阅读 · 1 评论 -
Python 实现Ridge Regression教程
一般多重线性回归,使用p个预测变量和一个响应变量拟合模型,形式如下:Y =β0+β1X1+β2X2+…+βpXp+εXjβjXj用最小二乘法选择β0、β1、B2、…、βp的值,以最小化残差平方和(RSS):RSS =Σ(yi–y^i)2yiy^i。原创 2022-08-25 13:55:26 · 1421 阅读 · 0 评论 -
Python构建简单线性回归模型教程
本文介绍如何构建简单线性回归模型及计算其准确率,最后介绍如何持久化模型。原创 2022-08-24 16:47:38 · 7354 阅读 · 3 评论 -
Python计算二项分布教程
最常用二项实验为抛硬币实验。如果随机变量服从二项分布,那么概率x=k(成功的次数)公式如下:P(X=k) =nCk∗pk∗(1−p)n−k参数说明:n: 实验次数k: 成功次数p: 实验成功的概率nCk: n次实验获得k次成功。原创 2022-08-24 11:46:50 · 5329 阅读 · 0 评论 -
独热编码和标签编码
假设有猫、狗、斑马图片数据集,需要通过神经网络进行分类。输入很好理解————图像(处理成黑白图像)中的每个像素作为一个输入神经元,输出好像有点复杂。猫、狗、斑马属于类别变量,很多机器学习算法不能处理类别变量,因此需要对类别变量进行编码。原创 2022-08-23 15:35:06 · 2552 阅读 · 0 评论 -
Python计算泊松分布教程
泊松分布描述在给定时间间隔内发生K次事件的概率。如果给定随机变量X服从泊松分布,那么X恰等于k次的公式为:P(X=k) = λ* e/ k!泊松实验的一个例子是某医院每小时分娩的人数。例如,假设某家医院每小时平均分娩10例。这是一个泊松实验,因为它有以下四个性质:实验中成功的次数是可以计算的-我们可以计算出生的次数。在特定的时间间隔内发生的平均成功次数是已知的——已知平均每小时发生10次分娩。每个结果都是独立的——一个母亲在给定的一小时内生产的概率是独立的。...原创 2022-08-19 08:30:43 · 7789 阅读 · 0 评论 -
连续变量离散化教程
为了分析连续数据,通常需要离散化或分成组。本文介绍pandas包中cut和qcut函数,对连续变量进行使用不同方式进行分组。原创 2022-07-30 21:43:26 · 1022 阅读 · 0 评论 -
Pandas创建透视表教程
本文介绍如何使用Pandas创建透视表(交叉表)。原创 2022-07-29 21:45:10 · 687 阅读 · 0 评论 -
给Pandas数据框增加计算列和计算行
实际应用中通常需要基于数据框已有列,计算产生新的数据列。本文通过基于计算三列的结果增加列示例进行讲解。原创 2022-07-29 21:42:58 · 3225 阅读 · 0 评论 -
Pandas 分组数据分析
本文我们学习了如何使用groupby对单个和多个列进行分组,通过对每组执行counts,size,max,min,mean,describe等聚集函数。https。原创 2022-07-27 17:43:08 · 1028 阅读 · 0 评论 -
Pandas常用计数函数实战教程
本文介绍Pandas中对数据框行或列进行计数、查找唯一值的相关函数,并通过示例进行说明。原创 2022-07-26 17:07:25 · 1191 阅读 · 0 评论 -
Python实现单向方差分析
单向方差分析(ANOVA是analysisofvariance的缩写)常用于决定多个独立分组均值是否有显著性差异。本文使用Python实现单向方差分析示例。原创 2022-07-24 21:31:08 · 1428 阅读 · 0 评论 -
NumPy 统计相关函数示例教程
本文介绍Numpy数组的常用方法以及与描述性统计相关的方法,如均值、方差、标准差、众数等。原创 2022-07-23 22:17:59 · 394 阅读 · 0 评论 -
如何使用Python画QQ图
QQ图,全称quantile-quantileplot,又称为分位图。通常用于判断一组数据是否服从某种理论分布,大多数情况用于判断是否服从正太分布。尽管Q-Q图不是正式的统计检验,但它提供了一种直观、简单方法来检查数据集是否为正态分布的。本文介绍如何使用Python创建QQ图。...原创 2022-07-18 20:30:06 · 10639 阅读 · 1 评论 -
Seaborn画时间序列图示例
时间序列图用于展示随着时间变化的数据值。本文介绍如何适用seaborn画各类时间序列图。原创 2022-07-10 21:34:11 · 1821 阅读 · 0 评论 -
介绍汉明距离及计算示例
汉明距离是以美国数学家理查德·汉明的名字命名的,他在1950年关于汉明码的论文中提出了该举例度量指标。它被广泛用于多个学科,如信息论、编码理论和密码学。举例:“karolin” 和 “kathrin” 两个字符串汉明距离为s 3 (差异字符有: r-t, o-h, l-r),1011100 和 1001000 汉明距离为 2 (不同二进制数为: 1-0 和 1-0)31738 和 32337 汉明距离为 3 (不同整数位: 1-2, 7-3, 和 8-7).汉明距离在解决很多问题中被证明是非常有用。例如原创 2022-07-03 15:43:24 · 5486 阅读 · 0 评论 -
热力图展示相关矩阵
量化两个变量之间的关系通常使用皮尔逊相关系数,即衡量变量间的线性相关程度。相关系数取值范围:[-1,1]:越远离0,相关性越强。当变量数量超过2个时,通常使用相关矩阵表示,即用方阵形式表格表示每对变量之间的相关性。下面通过Python示例说明如何计算相关矩阵,并使用热力图进行表示。首先创建示例数据集:下面计算相关矩阵:表格对角线的相关系数都为1,表示每个变量都完全自相关。其他数值表示每对变量的相关系数:assists 和 rebounds 相关系数为 -0.245.assists 和 points原创 2022-06-23 21:09:36 · 3259 阅读 · 0 评论 -
计算欧式距离和余弦相似度
本文介绍Python计算欧式距离和余弦相似度。为了余弦相似度需要使用欧式距离,我们首先介绍欧式距离。欧式距离标识两个向量之间的距离,计算公式如下:欧式距离 = Σ(Ai−Bi)2\sqrt{Σ(A_i-B_i)^2}Σ(Ai−Bi)2python计算欧式距离,可以使用numpy.linalg.norm函数:输出结果显示两个向量的欧式距离为:12.409673645990857如果两个向量长度不等,函数会产生警告:也可以针对数据框的列计算欧式距离:余弦相似度余弦相似度用向量空间中两向量夹角的余弦原创 2022-06-20 21:39:51 · 1258 阅读 · 0 评论 -
如何进行探索性数据分析
一般数据分析项目第一步都需要探索性数据分析。主要包括三个方面:通过上述三个方面分析,可以在执行假设检验或统计模型之前对数据集的分布情况有基本理解,并检测获得问题数据情况。下面通过示例说明探索性数据分析,并给出Python代码实现。首先创建pandas数据框:通过head()函数查看前五行数据:查看数据概况使用describe() 函数可以快速查看每个数值变量的概况:每个数值变量的信息说明:count: 非缺失值数量std: 均值min: T最小值25%: 第一四分位值 (前25%)50%:原创 2022-06-19 21:17:13 · 2672 阅读 · 0 评论 -
如何对类别变量进行独热编码
大部分机器学习算法是基于向量空间中度量来进行计算的,使用独热编码(One-hot encoding, 也称为哑变量 dummy variable)会让特征之间的距离计算更加合理。通过独热编码把类别变量转换为机器学习算法可使用的格式,其基本思想是对原始类别变量的每个值创建新的变量,并赋值为 1 和 0下图展示如何进行独热编码,把Team变量转为新的变量:下面把原始变量转为独热编码形式:R 有多种方式很容易实现独热编码。可以使用工具包提供函数实现,也可以手动实现。下面定义演示数据:我们先看caret包中提供原创 2022-06-16 21:11:46 · 2870 阅读 · 0 评论 -
Python读写时序数据库InfluxDb
InfluxDb 是高性能的时间序列数据库,能够存取高吞吐量时间序列数据,每秒可达几百万数据点。数据点(或时间序列数据)可能是CPU运行指标、不同服务器的日志信息、传感器数据、股票市场数据等。InfluxDb 使用Go语言开发,无需外部依赖。InfluxDb 提供了类SQL接口查询数据。自动压缩数据和降低采样率有助于最大限度地减少存储空间。通过连续查询和数据保留策略,可以让数据库中的旧数据过期。行协议语法下面示例度量名称为weather,包括两个标签location和season再看一个示例,除了标签原创 2022-06-10 21:04:24 · 4106 阅读 · 2 评论 -
pandas数据框loc属性语法及示例
pandas.DataFrame.loc[] 是数据框的属性,通过指定标签或布尔数组来访问数据框的一组行和列。pandas.DataFrame是带有轴标签的二维表数据结构,如列和行。从数据框选择列结果是新的数据框,它仅包括特性从原数据框中选择的列。pandas.DataFrame.loc 的关键说明:loc用于通过数据框的名称(标签)选择行列,是数据框最常用的属性。数据框的主要优点是容易使用,当你使用pandas.DataFrame.loc[] 属性去选择或过滤数据框时,你会认同这个优势。第一个用于通过名称原创 2022-06-05 16:33:21 · 6689 阅读 · 2 评论 -
读Json文件生成pandas数据框
有时可能需要转换json文件位pandas数据框。使用pandas内置的read_json()函数很容易实现,其语法如下:下面通过几个示例进行说明。假设json文件my_file.json的格式如下:我们使用pandas的函数read_json,只要只从orient参数位records:输出结果:index格式假设json文件格式为:与上面实现代码一样,仅需要修改orient=‘index’:输出结果:columns 类型假设json文件格式为:加载代码修改orient参数为’column原创 2022-06-04 21:01:44 · 816 阅读 · 0 评论 -
快速掌握Python枚举教程
Python3.4版本引入新的数据类型——枚举,本文带你学习完整的枚举类型。枚举是一组绑定唯一常量值的符号名称。枚举用于场景简单的自定义类型,如季节、星期、游戏中的武器类型等,枚举命名一般约定为大写字母开头,且为单数形式。Python中使用模块创建枚举,通过class关键字或函数方式创建枚举。enum有几个派生类,IntEnum,enum.IntFlag,enum.Flag。首先我们看个简单示例:上面示例我们定义Season枚举,包括四个值。通过枚举名称+点+成员名称来访问成员。输出结果:第二个示例我原创 2022-06-03 22:48:36 · 2166 阅读 · 0 评论 -
Python使用with关键字操作文件
Python中的with open语法,与Java 中的try resource,可以自动关闭释放资源。Python中打开文件,处理数据,最后关闭文件。语法方式如下:file = open('my_data.csv')df = file.read()print(df)file.close()上面示例的问题是很容易忘记关闭文件。更好的做法是使用with open,语法如下:with open('my_data.csv') as file: df = file.read() pr.原创 2022-05-30 19:00:14 · 864 阅读 · 0 评论 -
快速掌握Python推导式
推导式(comprehension)是一种从一个或多个迭代器创建Python数据结构的紧凑方式。推导式能够用更少的代码实现循环和条件测试组合的冗长语法。使用推导式通常被认为是Python老手的标志,也就是说更Python。list 推导式下面构建list,包括1到5的整数,代码如下:number_list = []number_list.append(1)number_list.append(2)number_list.append(3)number_list.append(4)number原创 2022-05-29 21:26:39 · 369 阅读 · 0 评论 -
Flask-SQLAlchemy 快速入门
Flask-SQLAlchemy 的使用是有趣的,对于基本应用异常的简单,并且为大型应用扩展也 是没有困难的。要完整的指导,请查阅 SQLAlchemy 类的 API 文档。转载 2016-06-30 14:07:59 · 1348 阅读 · 0 评论 -
python常见问题
python开发常见问题,简单汇总,包括eclipse配置,list转换,boolean判断以及list操作。原创 2016-07-14 08:48:00 · 1182 阅读 · 0 评论