- 博客(19)
- 收藏
- 关注
原创 torch_geometric和torch_geometric_temporal安装
找不到to_dense_adj](https://blog.cuger.cn/p/b1a8/)***环境:***本地win10,cpu,python3.9,pandas==1.3.5(其次,加上清华镜像加速下载,不然速度慢很多。安装中,遇到由于依赖关系和版本对应等造成的问题。,因为二者更新进度不同,若安装最近版本。选择与自己环境对应的选项。
2024-12-23 16:40:56
615
原创 从决策树到集成学习
从决策树到集成学习文章目录从决策树到集成学习1.决策树1.1 节点字段的选择1.1.1 信息增益与ID3算法1.1.2 信息增益率与C4.5算法1.1.3 基尼指数与CART算法1.2 决策树的剪枝1.2.1 误差降低剪枝法1.2.2 悲观剪枝法1.2.3 代价复杂度剪枝法2.集成学习2.1 Bagging和随机森林2.1.1 Bagging2.1.2 随机森林2.2 Boosting算法2.2.1 AdaBoost(1)AdaBoost算法流程:step1:初始化样本权值分布,一般初始取1/N1/N1/
2022-02-11 16:51:46
478
原创 线性回归、岭回归、LASSO和Logistic模型
线性回归、岭回归和LASSO回归模型文章目录线性回归、岭回归和LASSO回归模型1 线性回归模型1.1 一元线性回归模型1.1.1 模型介绍1.1.2 参数求解1.1.3 python实现1.2 多元线性回归模型1.2.1 模型介绍1.2.2 模型参数求解1.3 回归模型的假设检验1.3.1 模型的显著性检验——F检验1.3.2 回归系数的显著性检验——t检验1.4 回归模型的诊断1.4.1 正态检验1.4.2 多重共线性检验1.4.3 线性相关性检验1.4.4 异常值检验1.4.5 独立性检验1.4.6
2021-12-21 22:54:33
2143
原创 HIVE学习
HIVE学习1、基本概念HIVE是类SQL的语言,它们的查询语言是相似的;但处理的数据规模、数据量不同。是hadoop的一个客户端,其本质是将HQL转换为MapReduce程序。hive官方网站2、查询语句2.1 基本数据类型INT、BIGINT、DOUBLE、STRING2.2 集合数据类型HIVE有三种复杂数据类型ARRAY、MAP和STRUCT。相关知识点:DML和DDL、DQL、DCLDDL(data define language),数据定义语言。包括创建数据库中的
2021-12-21 17:04:26
1359
原创 Pycharm进行debug
Pycharm进行debugF8:step over 单步遇到断点后,程序停止运行,按F8单步运行。F7:step into 进入配合F8使用。单步调试F8时,如果某行调用其他模块的函数,在此行F7,可以进入函数内部,如果是F8则不会进入函数内容,直接单步到下一行。Alt+shift+F7:step into mycode,1、没遇到函数,和F8一样;2、遇到自己编写的函数会自动进入函数内部shift+F8:跳出调试过程中,F7进入函数内后,shift+F8跳出函数,会回到
2021-12-21 16:55:37
450
原创 交叉验证理解
交叉验证在机器学习中,通常我们不能把全部数据集用于训练模型,以为这样就没有数据集来验证模型,从而评估模型的预测效果。为了应对这一问题,常用的方法如下:1. The Validation Set Approach最简单的就是把数据集划分为两部分,训练集(training set, 训练模型)和测试集(test set,验证模型)。但是这样做存在两个弊端:(1)最终模型和参数的选取将极大的依赖于你对训练集和测试集的划分方法。在不同的划分方法下,test set MSE的变动很大,并且对应的degree
2021-09-06 22:25:35
746
原创 线性回归、岭回归和LASSO回归模型
线性回归、岭回归和LASSO回归模型文章目录线性回归、岭回归和LASSO回归模型1 线性回归模型1.1 一元线性回归模型1.1.1 模型介绍1.1.2 参数求解1.1.3 python实现1.2 多元线性回归模型1.2.1 模型介绍1.2.2 模型参数求解1.3 回归模型的假设检验1.3.1 模型的显著性检验——F检验1.3.2 回归系数的显著性检验——t检验1.4 回归模型的诊断1.4.1 正态检验1.4.2 多重共线性检验1.4.3 线性相关性检验1.4.4 异常值检验1.4.5 独立性检验1.4.6
2021-09-03 21:36:12
2285
原创 DBSCAN算法理解
DBSCAN算法理解1.DBSCAN简介DBSCAN(Density-Based Special Clustering of Application with Noise),它是基于密度聚类算法,密度可以理解为样本点的紧密程度,而紧密度的衡量则需要使用半径和最小样本量进行评估,如果在指定的半径内,实际样本量超过给定的最小样本量阈值,则认为是密度高的对象。DBSCAN密度聚类算法可以非常方便的发现样本集中的异常点,故通常可以使用该算法实现异常点的检测。它可以发现任何形状的样本簇,并且具有很强的抗噪声能力。
2021-09-03 21:29:05
1315
原创 DBSCAN算法理解
DBSCAN算法理解1.DBSCAN简介DBSCAN(Density-Based Special Clustering of Application with Noise),它是基于密度聚类算法,密度可以理解为样本点的紧密程度,而紧密度的衡量则需要使用半径和最小样本量进行评估,如果在指定的半径内,实际样本量超过给定的最小样本量阈值,则认为是密度高的对象。DBSCAN密度聚类算法可以非常方便的发现样本集中的异常点,故通常可以使用该算法实现异常点的检测。它可以发现任何形状的样本簇,并且具有很强的抗噪声能力。
2021-08-04 13:46:14
671
原创 DataFrame把变量类型转为float报错,ValueError could not convert string to float
DataFrame把变量类型转为float报错,ValueError: could not convert string to float:遇到上面报错,说明数据中有空的数据结构,比如有空的字符串'',处理方法如下:# 把空的字符串转为np.nandef transform_str(x): if x == '': return np.nan else: return float(x) for col in ['col1','col2','col
2021-07-21 21:56:48
1167
原创 python使用matplotlib画图时设置x轴刻度
python使用matplotlib画图时设置x轴刻度plt.rcParams['font.family'] = ['KaiTi']plt.rcParams['axes.unicode_minus'] = False%matplotlib inlinefigure = plt.figure(figsize=(26,8))ax1 = figure.add_subplot(1,1,1)ax1.plot(host_df['deviceTemp'],color='green',label='temp'
2021-07-16 11:16:57
3762
原创 文本文件读取
python读取txt文本文件数据最近在工作中遇到了文本数据的读取,由于一般都是处理excel和csv文件,刚开始处理时比较迷茫,后来在查看资料和咨询后做了出来,所以记录一下,方便以后复习!数据格式 date: 2001/06/22 10:16:22.484 line2:words2 line3:words3 line4:words4 line5:words5
2020-07-24 23:49:48
182
原创 Pandas 性能优化
Pandas 性能优化在数据分析中,Pandas常被用来读取数据、数据处理、数据挖掘,是一个方便、好用的库。但Pandas的运行速度较慢,特别是在处理一些大的数据集时,因此本文整理了一些Pandas性能优化的方法。性能分析在做性能优化之前,可以先用line_profiler查看每一行代码执行的时间占比,然后根据具体时间占比进行针对性的优化。from line_profiler import LineProfilerimport randomdef do_stuff(numbers): # 定
2020-07-15 15:17:43
510
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人