python
我不爱机器学习
这个作者很懒,什么都没留下…
展开
-
利用dill对Dataset/DataLoader进行保存与加载
dill, pytorch,dataset, dataloader原创 2022-10-10 21:32:10 · 2278 阅读 · 0 评论 -
ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.9‘ not found
添加:export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/miniconda3/lib;原创 2021-12-15 19:18:33 · 1088 阅读 · 0 评论 -
时序分析案例全面详细讲解,含数据与python3代码
这部分的内容放在下面的公众号里,有数据和代码,欢迎大家下载。除了时序分析案例,里面也会分享其它时序分析知识。该公众号会不定期跟大家分享有价值的干货。...原创 2020-03-12 20:17:52 · 32433 阅读 · 47 评论 -
集成算法学习(1)-Bagging、Boosting(AdaBoost)原理与公式推导
1、决策树与集成学习的关系根据python3 决策树(ID3、C4.5、CART)原理详细说明与公式推导可知:决策树容易解释,可以处理离散和连续值,对输入变量的单调转换不敏感(因为分割点是基于数据点的排序),执行自动变量选择,对异常值相对稳定,可以很好地扩展到大型数据集,并且可以修正输入的缺失值。但是决策树与其他类型的模型相比,预测不是很准确。这部分是由于树构造算法的贪心本性。一个相关...原创 2019-12-30 09:53:28 · 3679 阅读 · 0 评论 -
python3 Boosting(AdaBoost)算法实现
算法原理:Bagging、Boosting(AdaBoost)原理与公式推导算法步骤: import numpy as npimport seaborn as snssns.set_style('white')from sklearn.tree import Dec...原创 2019-12-30 09:51:47 · 1045 阅读 · 0 评论 -
python3 决策树(ID3、C4.5、CART)原理详细说明与公式推导
1、简介1.1 树的定义决策树(decision tree)是一种描述对实例进行分类的树形结构,由结点 (node)和有向边 (directed edge)组成。结点有三种类型:根结点(root node):表示树根 内结点 (internal node):表示特征 叶结点(leaf node):表示类 边 (directed edge):表示划分的条件决策树的是...原创 2019-12-19 15:38:01 · 2458 阅读 · 0 评论 -
决策树 CART 自编代码 (Python3)
根据决策树CART的原理用Python3写出,代码如下:from random import randrange# 根据阈值对单个属性数据(数值)进行分割def split_numerical(attribute_index, thresh, datasets): left, right = [], [] for r in datasets: if r[...原创 2019-12-19 15:37:32 · 806 阅读 · 0 评论 -
python3 支持向量机 (详细说明与推导)
建议先看一下这两篇文章:核函数(Kernel function)(举例说明,通俗易懂)拉格朗日乘子、拉格朗日对偶问题 (举例说明,通俗易懂)1、支持向量机简介支持向量机(support vector machine)是一种用于分类、回归和异常值(离群点)检测的监督学习方法。支持向量机是一种二分类模型,其基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大有别于感知机;支...原创 2019-12-11 16:23:44 · 2067 阅读 · 0 评论 -
拉格朗日乘子、拉格朗日对偶问题 (举例说明,通俗易懂)
本文通过一系列的例子来说明拉格朗日乘子的运算以及原理,通俗易懂。1、拉格朗日乘数(乘子)原理定义:In mathematical optimization, the method of Lagrange multipliers is a strategy for finding the local maxima and minima of a function subject to ...原创 2019-12-10 13:50:58 · 16599 阅读 · 2 评论 -
python3 Fisher线性判别分析(LDA)(含详细推导和代码)
1、线性判别原理线性判别分析是常用的降维技术,在模式分类和机器学习的预处理步骤中。其目标是将数据集投影到具有良好的类可分性的低维空间中,以避免过度拟合(维数过多)并降低计算成本,如将一个特征空间(一个数据集n维样本)投射到一个更小的子空间k(其中k ≤n-1)上,同时维护类区分信息。判别式是一个函数,它接受一个输入向量x,并把它赋值给K个类中的一个,记作。在这一章中,我们将把注意力限制在线...原创 2019-12-03 15:48:29 · 11231 阅读 · 8 评论 -
python3 联合概率,边缘概率,贝叶斯定理(含详细推导)
1、贝叶斯原理假设有两个随机变量X;Y(下方左图); X的取值为 {},其中 i=1,...,M(M个特征); Y的取值为 {},,其中 j=1,...,L(L个类),如下图所示,M=5, L=3。 假设这两个变量的实例总数N,那用表示的实例数,即数组相应...原创 2019-11-27 18:58:02 · 6057 阅读 · 4 评论 -
python3 逻辑回归(含推导)
1、比率(odds)、概率(probability)和可能性(likelihood:似然)例如:成功7次,失败5次比率 =某一类样本数/另一类样本数}=7/5 概率 = 某一类样本数/所有可能情况的样本=7/(7+5) 可能性:如果用theta表示环境参数,y表示结果,则概率表示为:(条件概率,已知theta),theta称为前置条件;在已知y的条件下求theta则称为可能性:,一般采...原创 2019-11-19 09:49:56 · 1228 阅读 · 1 评论 -
python3 如何评价模型的表现(分类指标:confusion matrix、ROC、AUC)
1. 错误率和准确率准确率不是评价模型好坏的标准,如遇到类别不平衡(class imbalance)的数据,典型的垃圾邮件问题,99%的邮件都是非垃圾邮件,1%为垃圾邮件,那分类准确率99%就没有什么意义。错误率 = 分类错误样本数/样本总数 准确率:分类正确样本数/样本总数2. 混淆矩阵类别 predicted:spam email (expectatio...原创 2019-11-16 15:32:46 · 3005 阅读 · 0 评论 -
python3 正则化:Lasso、Ridge、Elastic Net
1、线性正则化降低线性回归的损失函数,大的系数会造成过拟合,为每个特征变量选一个系数,当某一变量的系数过大时,会使预测偏向该特征,因此损失函数会惩罚(penality)大的系数(绝对值大),这就叫正则化。代价函数 = 均方误差 + 惩罚函数 均方误差:使训练误差变小 惩罚函数:使参数绝对值变小 (是惩罚参数)...原创 2019-11-14 10:54:24 · 1431 阅读 · 1 评论 -
python3 自编线性回归(4种方法)
1、数据准备:import numpy as npx = np.array([0, 1, 2, 3])y = np.array([-1, 0.2, 0.9, 2.1])X, Y = x, y2、直线回归方程,适用于一元线性回归# 直线回归方程求解(y=bx+a+e)def regressgion(x, y): x_mean = np.mean(x) y_...原创 2019-11-13 10:31:58 · 927 阅读 · 2 评论 -
python 求两个有序数组合并后的中位数
class Solution(object): def findMedianSortedArrays(self, nums1, nums2): """ :type nums1: List[int] :type nums2: List[int] :rtype: float """ if nums1...原创 2018-08-03 16:48:21 · 1241 阅读 · 0 评论 -
K-均值聚类(K-means)算法
https://www.cnblogs.com/ybjourney/p/4714870.html转载 2018-08-12 15:14:03 · 409 阅读 · 0 评论 -
Python正则表达式
原创 2019-05-26 21:39:55 · 251 阅读 · 0 评论 -
python:读取多个Excel表单进行成组测验并绘制误差棒图
对多个表单的成组数据进行t测试并能够将结果保存到excel. python 代码: from scipy.stats import ttest_ind # 引入成组测验的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdata = {} # 初始化字典,放入表单数据re...原创 2019-05-29 14:46:45 · 843 阅读 · 0 评论 -
K均值聚类python代码
数据介绍:有三列,一列是name,即样本的名字,另外两列是数值数据,对name进行聚类,再根据聚类的标签(从0开始),然后建立交叉表。代码:from sklearn.cluster import KMeans #k均值聚类import pandas as pddf = pd.read_csv('XXXX.csv')#print(df.head)#print(df.colum...原创 2019-06-10 13:25:13 · 2875 阅读 · 0 评论 -
python中各种下划线(_xxx、__xxx__ 、__xxx)的含义
Python 用下划线作为变量前缀和后缀指定特殊变量,主要有以下几种:_xxx :保护变量,意思是只有类对象和子类对象能够访问到这些变量(尽量避免在类外部直接修改)__xxx__ :python语言定义的特殊方法__xxx :类中的私有变量名核心风格:避免用下划线作为变量名的开始类的基础方法序号 目的 ...转载 2019-07-24 21:39:36 · 1645 阅读 · 0 评论 -
Python List赋值方法:赋值、浅拷贝与深拷贝
Python中关于对象复制有三种类型的使用方式,赋值、浅拷贝与深拷贝。他们既有区别又有联系。一、赋值在python中,对象的赋值就是简单的对象引用,这点和C++不同。如下:a = [1,2,3,"hello",["python","C++"]] b = a print a==b #True这种情况下,b和a是一样的,他们指向同一片内存,b不过是a的别名,是引用。我们可以使用a...转载 2019-07-27 18:01:25 · 414 阅读 · 0 评论 -
inux系统下存在多个python版本,指定特定版本作为默认版本的方法
一个linux系统里面可能会存在多个python版本,如果想指定特定的版本作为终端打开的默认版本,方法是将对应版本的bin路径加入系统路径 PATH。操作步骤为:(1)查看当前python版本,在任意终端输入:python --version(2)查看当前python位置,在任意终端输入:which python(3)查看系统存在的所有python...转载 2019-09-12 10:51:32 · 1277 阅读 · 0 评论 -
python 返回两个数组的和等于目标值的索引
class Solution(object): def twoSum(self, nums, target): for i in range(len(nums)): for j in range(i + 1, len(nums)): sum = nums[i]+nums[j] if su...原创 2018-08-03 16:45:06 · 1736 阅读 · 0 评论