_StarryNight_-CSDN博客

原创简单记录下在Autodl使用huggingface下载模型血泪经验

然后我就想试试ERNIE，Roberta什么的，觉得手动下载非常麻烦，还很不高大上，但自己from_pretrained总是报错，说无法连接到huggingface网站。一开始使用的是bert模型，把需要的文件都下载在了自己的电脑上，然后上传autodl的文件夹，所以没有什么问题。搞半天发现我自己本机科学上网和我租的云有什么关系。所以用autodl帮助文档里的方法设置了科学上网。知道huggingface被墙了，但是我确实在科学上网呢。改了下面两个包的版本，然后就成功了！

2024-03-16 13:56:02 6820 9

原创数理统计基础：参数估计与假设检验

在学习机器学习的过程中，我充分感受到概率与统计知识的重要性，熟悉相关概念思想对理解各种人工智能算法非常有意义，从而做到知其所以然。因此打算写这篇笔记，先好好梳理一下参数估计与假设检验的相关内容。先从整体结构上进行一个把握。数理统计的主要任务是通过样本的信息推断总体的信息，即统计推断工作。统计推断主要有两大类问题：参数估计和假设检验。它们都建立在抽样分布理论的基础之上，但角度不同。参数估计是利用样本信息推断未知的总体参数；而假设检验是先对总体参数提出一个假设值，然后利用样本信息判断这一假设是否成立。参数.

2023-12-10 19:47:24 2383

原创 pm4py使用指南（非机翻）

介绍python流程挖掘工具包的使用方法，对常用函数进行了详细的介绍。

2023-08-24 10:31:05 1723

原创 pm4py安装使用过程中的一些问题及解决

安装和一般的python第三方库方法无异，但是在使用的时候可能会出现一些问题，现给出亲测有用的解决方案。

2023-08-22 16:57:21 836

原创【SQL】每类视频近一个月的转发量/率

统计在有用户互动的最近一个月（按包含当天在内的近30天算，比如10月31日的近30天为10.2~10.31之间的数据）中，每类视频的转发量和转发率（保留3位小数）。

2023-06-27 14:49:28 1041

原创【SQL】各个视频的平均完播率

计算2021年里有播放记录的每个视频的完播率(结果保留三位小数)，并按完播率降序排序。

2023-06-25 14:50:43 1146

原创 Pytorch重要代码段（持续更新）

pytorch的常用代码

2022-11-05 10:24:02 512

原创 Transformer结构解析

Transformer模型的结构和计算过程

2022-11-03 14:17:14 10057 1

原创 BERT详解：概念、原理与应用

对bert的原理，结构，预训练过程进行介绍

2022-08-25 02:45:04 51043 5

原创一些散碎的Pytorch笔记(张量操作)

广义的张量可以是任何维度的，而狭义来说，一维是向量，二维是矩阵，三维及以上是张量。创建张量：a=torch.tensor(1,dtype=torch.float32)tensor–>numpy：b=a.NumPy() b是numpy，但是a还是tensornumpy–>tensor：c=torch.from_NumPy(b) c是tensor因为支持自动梯度功能，PyTorch的变量来自包torch.autograd1.向量操作向量生成a=torch.linspace(1.

2022-05-26 23:04:59 372

原创 SQL每日练习（一）

sql练习

2022-04-27 00:41:59 1343

原创 RNN、GRU和LSTM的结构与公式讲解

本文基于吴恩达的视频和符号规定，对RNN/GRU/LSTM的结构和公式进行介绍，重点解释了RNN的前向和反向传播过程，尤其是RNN的反向传播自认为讲得还比较容易理解。

2022-04-22 22:06:33 950

原创决策树ID3算法Python实现

TreePlotter.pyimport mathimport operatorimport matplotlib.pyplot as plt import TreePlotterdef createDataset(): dataSet = [ # 17个样本，6个属性 ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '好瓜'], ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '好瓜

2022-04-01 15:16:52 4196 8

原创主成分分析原理以及SPSS和Python实现

[ 0 ] 一句话定义主成分分析(principal component analysis,PCA) 是一种常用的无监督学习方法，它利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量叫主成分，主成分个数主一般小于原始变量个数，所以它是一种降维方法。主成分分析主要用于发现数据中的基本结构，即数据中变量之间的基本关系，是一种描述性统计方法，常常用于其他机器学习方法的前处理。——李航《统计学习方法》[ 1 ] 使用目的和使用条件统计分析中，变量之间可能存在

2022-03-21 17:01:08 3425 4

原创 SVM支持向量机基本原理

1.基本概念支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，核技巧使它成为实质上的非线性分类器。模型：分离超平面w∗x+b∗=0w^{*}x+b^{*}=0w∗x+b∗=0 +决策函数f(x)=sign(w∗x+b∗)f(x)=sign(w^{*}x+b^{*})f(x)=sign(w∗x+b∗)学习策略：硬间隔最大化 / 软间隔最大化学习算法：凸二次规划2.基本分类线性可分支持向量机线性3.线性可分支持向量机学

2022-03-14 19:21:59 1266

原创【Python数据结构和算法】(一)绪论：基本概念、算法分析、Python结构的性能

目录1 基本概念2 算法分析2.1 算法设计的要求2.2 算法效率的度量——大O记法3 Python结构的性能3.1 列表3.2 字典1 基本概念数据结构相互之间存在一种或多种特定关系的数据元素的集合。通常有四类基本结构：集合、线性结构、树形结构、图状或网状结构。算法对特性问题求解步骤的一种描述，是指令的有限序列。一个算法有下列五个重要特性：有穷性：执行步数有穷，执行时间有穷确定性：只有一条执行路径，对于相同的输入只能得出相同的输出可行性：算法中描述的操作都可以通过已经实现的基本运算执行

2022-03-09 20:45:51 1374

原创分类问题的评价指标

分类问题的评价指标/分类度量，查准率和查全率，PR图，ROC曲线等

2022-02-17 00:01:52 1245

原创自存。。。

经典机器学习算法线性模型决策树支持向量机KNNKmeans和DBSCAN神经网络AdaBoostboosting和bagging================待补充-----------------------[SVM、随机森林、XGBoost、GBDT、深度学习相关等等]数据挖掘常识数据预处理特征选择与特征抽取偏差与方差Jaccard系数混淆矩阵查准率与查全率概率与统计基础回归分析回归分析补充假设检验Python工具【NumPy】官方文档详解（一）什么是Nu

2022-02-14 01:11:18 1199

翻译 From Data Mining to Knowledge Discovery in Databases

经典论文翻译：从数据挖掘到数据库中的知识发现

2022-01-28 02:02:09 756

原创 AdaBoost基本原理与详细公式推导

目录Boosting简介AdaBoost1. 基本思路2. 算法过程3. 算法解释3.1 加法模型3.2 指数损失函数3.3 前向分步算法3.4 推导证明3.4.1 优化Gm(x)G_m(x)Gm(x)3.4.2 优化 αm\alpha_mαm机器学习中有一类集成学习算法，它基于一组弱学习器进行组合提升，得到具有优越性能的强学习器。集成学习策略主要有boosting和bagging两大类。本文要介绍的AdaBoost就是boosting的重要代表。Boosting简介Boosting基本思想：通过

2022-01-19 04:46:57 3854 1

原创回归分析的几个问题：异方差性、自相关性、多重共线性

在回归分析学习笔记（一）：尽量详细且说人话中介绍了经典回归分析的基本假设，如果假设条件不满足会出现一些问题，现在就来具体的介绍一下。对于我们分析的具体问题，叙述逻辑为：概念描述——产生原因——导致结果——补救措施。基本假设x1,...,xpx_1,...,x_px1,...,xp 是确定性变量，不是随机变量；解释变量之间不相关，样本容量个数大于解释变量个数，即X\boldsymbol XX的秩为 p+1<n；Gauss−Markov条件{E(ϵi)=0,i=1,2,...,nCov(

2022-01-13 03:10:04 22813

原创回归分析学习笔记（一）：尽量详细且说人话

介绍回归分析基础知识，对原理和公式推导都有说明，主要内容包括一元线性回归、多元线性回归、最小二乘法、显著性检验等

2022-01-08 23:51:17 8222

原创决策树绘制代码TreePlotter.py

【代码】决策树绘制代码TreePlotter.py

2021-12-31 17:15:14 4419 7

原创【NumPy】官方文档详解（二）NumPy快速入门：广播机制和高级索引

1 . 广播机制Broadcasting rules广播允许通用函数以有意义的方式处理形状不完全相同的输入。根据某些约束，较小的数组可以在较大的数组上“广播”，以便它们具有匹配和兼容的形状。广播提供了一种矢量化数组操作的方法，以便循环在C而不是Python中发生，从而更加高效。而在某些情况下，广播也会导致内存使用效率低下，从而减慢计算速度。原理介绍numpy操作通常是逐个元素完成的，这需要两个数组具有完全相同的形状。而当数组的形状满足某些条件时，numpy 的广播规则会放宽此约束。例如，在进行数

2021-12-26 00:06:20 702

原创【NumPy】官方文档详解（二）NumPy快速入门：副本和视图

在操作数组时，它们的数据有时会被复制到新数组中，有时则不会。这通常是初学者感到困惑的根源。有三种情况：（1）No Copy at All：没有副本，简单赋值不会复制对象或其数据.a = np.array([1,2,3,4]) b = a a[0]=9999 # 修改a[0] ,观察b是否有变化print(b)print(b is a) # is比较：1.内容相同 2.内存中地址相同print(id(b)) # id() 返回对象的唯一身份标识print

2021-12-25 15:35:56 357

原创【NumPy】官方文档详解（二）NumPy快速入门：形状处理

介绍NumPy有关数组形状的一些操作

2021-12-23 16:33:14 1174

原创【NumPy】官方文档详解（二）NumPy快速入门：基础知识

NumPy 快速入门属性解释ndarray.ndim数组的轴数（维数）ndarray.shape

2021-12-22 23:54:54 1261

原创【NumPy】官方文档详解（一）什么是NumPy？

numpy官方文档解读，包括什么是numpy，numpy为什么快，ndarray的一些性质，并编写Python简单程序进行说明。

2021-12-22 01:27:55 1358

原创决策树基本原理：基于信息增益、增益率与基尼系数的划分选择，预剪枝与后剪枝，多变量决策树以及决策树优缺点概述

学习西瓜书决策树章节的笔记，介绍了ID3,C4.5,CART算法的划分方式，连续值和缺失值的处理，预剪枝和后剪枝，多变量决策树，并描述了决策树的主要优缺点。

2021-12-19 14:33:13 4883

原创神经网络基本原理、误差逆传播BP算法公式推导与多层神经网络的Python实现

学习西瓜书神经网络章节的笔记，对神经网络的相关公式进行了推导，并用python进行实现，欢迎交流指正~

2021-12-10 02:10:31 2194

原创线性模型：线性回归、逻辑回归、线性判别分析、多分类学习与类别不平衡问题

本文主要是学习周志华《机器学习》第三章的个人笔记，对线性模型进行了学习，欢迎交流学习。

2021-10-12 00:04:00 1756

原创李宏毅机器学习笔记（三）: 梯度下降

一、基本过程解决一个优化问题，通常需要构造一个 LossFunctionLoss FunctionLossFunction ，找到最优的参数 θ\thetaθ 使 LossFunctionLoss FunctionLossFunction 最小：θ∗=arg⁡max⁡θL(θ),L:lossfunctionθ:parameters\theta^*=\mathop{\arg\max}\limits_{\theta}L(\theta),\quad L:loss function \quad\theta:p

2021-10-06 23:06:19 273

原创李宏毅机器学习笔记（二）：偏差与方差

一、误差来自于哪？error一般有两种来源：bias（偏差）和 variance（方差），如果可以诊断error的来源，就可以挑选适当的方法来改进我们的模型。对于我们面对的问题，理论上有一个最佳的模型，这个理论上最佳的function一般写作 f^\hat{f}f^ , 即 y^=f^(x)\hat{y}=\hat{f}(x)y^=f^(x)，而我们能做的是通过一些training data去找一个能力范围内最好的function，记作f∗f^*f∗，f∗f^*f∗ 不一定等于 f^\hat{

2021-10-03 17:06:43 471

原创李宏毅机器学习课程笔记

一、举例引入1. 股票预测输入：股票起伏资料输出：明天的道琼斯指数2. 无人车输入：传感器所获取的信息输入：车辆控制操作（如方向盘左转50°）3. 推荐系统输入：使用者A 商品B输出：购买可能性4. 预测宝可梦的战斗力Combat Power输入：一只宝可梦的相关信息（种类、生命值、进化前的CP值、重量）输出：进化后的战斗力值二、建模步骤step 1. Model首先，找一个函数集合（function set），比如我们可能认为y=b+w∗xy=b+w*xy=b+w∗x像

2021-09-28 23:27:00 142

codelady_g的博客