Python系列专栏
文章平均质量分 68
Python系列专栏
Mrrunsen
这个作者很懒,什么都没留下…
展开
-
新手必备 | PyTorch基础入门教程(二)
第二周1. DataLoader与Dataset1.1 DataLoader与Dataset数据数据收集:img/label数据划分:train/valid/test数据读取:DataLoaderSampler:生成索引indexDataSet:读取图片img和标签label数据预处理:transformsDataLoader# 构建可迭代的数据装载器torch.utils.data.DataLoader()DataLoader(dataset, # Data原创 2021-05-28 15:16:32 · 399 阅读 · 0 评论 -
基于三种神经网络进行情感分析以及效果比较
期末展示实验报告——基于三种神经网络进行情感分析以及效果比较一、 选题之前浏览到一篇2014年的论文,Yoon Kim的《Convolutional Neural Networks for Sentence Classification》,其中提到了两层channel的卷积神经网络模型进行句子分类,这种Text-CNN类型的卷积神经网络思路简单,但是分类效果的确非常好,另外这篇论文也阐述了几种不同的神经网络模型在句子分类上的效果,因此我打算实现三种不同的神经网络模型,来进行一个较为简单的情感分析,比较原创 2021-12-25 15:54:48 · 1524 阅读 · 0 评论 -
深度学习必备知识点
第一章——深度学习必备知识点深度学习要解决的问题人工智能、机器学习、深度学习的区别于联系机器学习的流程:数据提取特征工程建立模型评估与应用特征工程可以说是建模过程中,最重要的部分。既然特征工程是最重要的,常规我们会做各种各样的特征,如聚合统计、交叉等,那有没有一种方法,它可以自动的去选择重要的特征。而深度学习可以说是最接近人工智能这一概念的,因为它解决了机器学习中“人工的”问题,如人工的选择特征、选择算法等。深度学习最大的亮点,就是解决特征工程的人工问题。特征工程的作用原创 2021-06-10 20:50:19 · 410 阅读 · 1 评论 -
递归神经网络与词向量原理解读
递归神经网络与词向量原理解读RNN网络架构解读常规神经网络并不能考虑时间序列的特征(比如前天+昨天+今天或者带有前后关联的特征),现在每个特征都是独立考虑的,那么如果有这样的特征,网络应该怎么学呢而递归递归网络hidden这里的转回箭头,表示训练完第一个X后,再拿回来去训练第二个X,即前一次训练的结果对后一次的训练结果产生影响。类似现在有X0、X1、X2 … Xt,假设X0就是本月的1号,X1就是2号以此类推,Xt就是昨天,这样是不是就是一个时间序列。X输入后有了h,h是中间的结果,每个原创 2021-06-10 23:10:36 · 188 阅读 · 0 评论 -
SVM基本形式
对于上面的优化目标,可以看出主要分为两部分,优化目标中第一项用来描述划分超平面的间隔大小,另一项∑i1mlossfxiyi∑i1mlossfxiyi用来表示训练集上的误差 ,写为一般的形式minfΩfC∑i1mlossfxiyifminΩfCi1∑mlossfxiyi其中Ωf\Omega(f)Ωf称为结构风险,用于描述模型fff的某些性质;原创 2023-01-17 20:33:46 · 97 阅读 · 0 评论 -
LU矩阵分解
LU分解PseudocodeLU_matrix_decompose(matrix) for j = [0:1:n) // L 为单位下三角矩阵 L[j][j] = 1.0 // 上三角矩阵的行列索引关系:j(rows) >= i(columns) for i = [0:1:j+1) sum_U = 0 for k = [0:1:i)原创 2021-06-20 20:19:30 · 292 阅读 · 0 评论 -
KNN基础算法原理和推导
基础算法原理和推导KNN 2-2-1 Knn建模流程是怎样的?(1)根据给定的距离度量,在训练集 TTT 中找出与 xxx 最邻近的 kkk个点,涵盖这 kkk 个点的邻域记作 Nk(x)N_k(x)Nk(x);(2)在Nk(x)N_k(x)Nk(x)中根据分类决策规则(如多数表决)决定 xxx 的类别 yyy:y=argmaxcj∑xi∈Nk(x)I(yi=cj),i=1,2,⋯ ,Nij=1,2,⋯ ,Ky=\arg \max _{c_{j}} \sum_{x_{i} \in原创 2021-12-15 16:04:58 · 1681 阅读 · 0 评论 -
正则项L1和L2
维基百科中给正则项做出了如下的解释,简单理解:正则项是通过添加信息来解决不适定问题(ill-posed)或者防止过拟合,其应用范围很广,包括数理统计、图像以及机器学习中。Note:不适定问题,可以简单理解为解可能不存在、不唯一或者不稳定 在机器学习中,在损失函数中添加正则项,目的是希望模型在拟合训练数据的同时,尽量使得到的模型尽可能简单,防止过拟合,其基本形式大都如下,ω∗argminω∑iLyifxi;原创 2023-01-17 20:12:59 · 236 阅读 · 0 评论 -
决策树和随机森林
目录1.决策树1.1从LR到决策树1.2“树”的成长过程1.3“树”怎么长1.3.1ID3算法1.3.2C4.51.3.3CART算法1.3.4三种不同的决策树1.4随机森林1.决策树1.1从LR到决策树相信大家都做过用LR来进行分类,总结一下LR模型的优缺点:优点适合需要得到一个分类概率的场景。实现效率较高。很好处理线性特征。缺点当特征空间很大时,逻辑回归的性能不是很好。不能很好地处理大量多类特征。对于非线性特征,需要进行转换。以上就是LR原创 2021-06-12 14:47:49 · 116 阅读 · 0 评论 -
新手必备 | PyTorch基础入门教程(三)
文章目录第三周1. 模型创建与nn.Module1.1 网络模型创建步骤1.2 nn.Module属性2. 模型容器与AlexNet构建2.1 模型容器2.2 AlexNet构建2.3 作业3. nn网络层-卷积层3.1 1d/2d/3d卷积3.2 卷积-nn.Conv2d()3.3 转置卷积-nn.ConvTranspose4. nn网络层-池化层、线性层、激活函数层4.1 池化层4.2 线性层4.3 激活函数层4.4 作业第三周1. 模型创建与nn.Module1.1 网络模型创建步骤模型创建原创 2021-05-28 15:19:29 · 106 阅读 · 0 评论 -
高斯消元法矩阵分解
高斯消元法 Gauss elimination methodPseudocoderetroactive_resolution(coefficients, vector) // 回代计算过程 k = n, n-1, n-2, ... , 2, 1 for row in reversed(range(rows)): sum = 0 for col in range(row + 1, columns): sum += coefficien原创 2021-06-20 20:20:12 · 359 阅读 · 0 评论 -
SVM-人脸识别
import matplotlib.pyplot as pltfrom sklearn.model_selection import train_test_splitfrom sklearn.datasets import fetch_lfw_peoplefrom sklearn.model_selection import GridSearchCVfrom sklearn.metrics import classification_reportfrom sklearn.svm import S原创 2021-06-13 14:20:33 · 136 阅读 · 0 评论 -
贝叶斯优化
本章节贝叶斯优化用于机器学习模型调参使用,由J.Snoek(2012)提出,主要思想是给定优化的目标函数(只需要指定输入和输出即可,无需知道内部结构以及数学性质),通过不断添加样本点来更新目标函数的后验分布(posterior distribution),该过程相当于是高斯过程(通俗点说就是每次使用参数均均考虑之前参数的相关信息,从而更好的调整当前的参数)。贝叶斯调参采用高斯过程,考虑之前的信息,不断的更新先验;网格搜索活随机搜索未考虑之前的信息贝叶斯调参迭代次数相对较少,速度快;原创 2023-01-17 20:11:49 · 352 阅读 · 0 评论 -
葡萄酒质量和时间关系
import numpy as np import matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_split# 载入数据data = np.genfromtxt('linear.csv', delimiter=',')# 画图plt.scatter(data[1:,0],data[1:,1])plt原创 2021-06-12 15:03:54 · 314 阅读 · 0 评论 -
梯度下降法(源码实现)
线性回归(梯度下降法)### 0.引入依赖import numpy as npimport matplotlib.pyplot as plt### 1.导入数据(data.csv) points = np.genfromtxt( "data.csv", delimiter="," )# points# 提取points里面的两列数据为X,Yx = points[:, 0]y = points[:, 1]# 调用plt画出散点图plt.scatter( x, y )plt.sho原创 2021-06-20 19:58:32 · 163 阅读 · 0 评论 -
新手必备 | PyTorch基础入门教程(五)
文章目录第五周1. 学习率调整策略1.1 调整学习率的原因1.2 pytorch的六种学习率调整策略2. 可视化工具——TensorBoard2.1 TensorBoard简介2.2 TensorBoard安装2.3 TensorBoard运行2.4 作业2.5 SummaryWriter2.6 add_scalar 和 add_histogram2.7 add_image 和 torchvision.utils.make_grid2.8 add_graph 和 torchsummary2.9 作业3. H原创 2021-05-28 15:58:45 · 134 阅读 · 0 评论 -
sklearn-神经网络-手写数字识别
# pip install scikit-learn --upgradefrom sklearn.neural_network import MLPClassifierfrom sklearn.datasets import load_digitsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.metrics import原创 2021-06-12 15:12:22 · 518 阅读 · 0 评论 -
信用卡机器学习期末实验报告
可信用卡机器学习期末实验报告 |一、实验背景 人工智能(AI)为改变我们分配信贷和处理风险的方式提供了一个机会,并创造了更公平、更包容的系统。人工智能可以避免传统的信用报告和评分系统,这有助于抛弃现有的偏见,使它成为一个难得的,改变现状的机会。然而,人工智能很容易朝另一个方向发展,加剧现有的偏见,创造出一个循环,加强有偏见的信贷分配,同时使贷款歧视更难找到。我们将通过开源模型Fairlearn来释放积极的一面,缓解偏见消极的一面。二、理论知识1.机原创 2021-12-25 15:31:26 · 1203 阅读 · 0 评论 -
梯度反方向函数下降最快
设一元函数fxf(x)fx在x0x_0x0的某个邻域内有定义,当自变量xxx在x0x_0x0处有增量ΔxxΔxΔxxΔx也在邻域内时,函数的增量为Δyfx0Δx−fx0Δyfx0Δx−fx0,如果limΔx→0ΔxΔyΔx→0limΔyΔx极限存在,则称函数fxf(x)fx在点x0x_0x0处可导,并称此极限为函数fff在点x。原创 2023-01-17 20:12:28 · 99 阅读 · 0 评论 -
命名实体识别
命名实体识别(Named Entity Recognition, NER)在从文本中识别出特殊对象,这些对象的语义类别通常在识别前被预定义好,如人、地址、组织等。命名实体识别不仅仅是独立的信息抽取任务,它在许多大型自然语言处理应用系统如信息检索、自动文本概要、问答任务、机器翻译以及知识建库(知识图谱)中也扮演了关键的角色。学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。原创 2023-01-17 20:16:43 · 375 阅读 · 0 评论 -
支持向量机SVM详解
目录1.SVM讲解1.1支持向量机(SVM)的由来1.2如何找到超平面1.3最大间隔分类器1.4后续问题1.5新闻分类实例1.SVM讲解案例SVM是一个很复杂的算法,不是一篇博文就能够讲完的,所以此篇的定位是初学者能够接受的程度,并且讲的都是SVM的一种思想,通过此篇能够使读着会使用SVM就行,具体SVM的推导过程有一篇博文是讲得非常细的,具体链接我放到最后面,供大家参考。1.1支持向量机(SVM)的由来首先我们先来看一个3维的平面方程:Ax+By+Cz+D=0这就是我们中学原创 2021-06-12 14:56:26 · 119 阅读 · 0 评论 -
NLP通用框架BERT原理解读
NLP通用框架BERT原理解读原创 2021-05-08 14:55:48 · 223 阅读 · 0 评论 -
基于BERT的中文情感分析实战
基于BERT的中文情感分析实战原创 2021-05-08 14:58:57 · 2367 阅读 · 4 评论 -
机器学习相关 解答
解答一、机器学习相关1、基本概念1-1 简述解决一个机器学习问题时,你的流程是怎样的? 确定问题:有监督问题还是无监督问题?回归问题还是分类问题? 数据收集与处理 特征工程:包括特征构建、特征选择、特征组合等 模型训练、调参、评估:包括模型的选择,选择最优的参数 模型部署:模型在线上运行的效果直接决定模型的成败 1-2 损失函数是什么,如何定义合理的损失函数? 机器 学习模型关于单个样本的预测值与真实值的差称为损原创 2021-12-15 16:02:44 · 964 阅读 · 0 评论 -
knn水果分类
from sklearn.neighbors import KNeighborsClassifierimport numpy as npimport pandas as pdfrom sklearn.preprocessing import LabelEncoderimport matplotlib.pyplot as pltfruit_name:水果类别mass: 水果质量width: 水果的宽度height: 水果的高度color_score: 水果的颜色数值,范围0-1。0.8原创 2021-06-12 15:11:34 · 968 阅读 · 0 评论 -
马尔可夫链蒙特卡罗法
马尔可夫链蒙特卡罗法 Markov Chain Monte Carlo Method蒙特卡罗法是通过基于概率模型的抽样进行数值近似计算的方法,蒙特卡罗法可以用于概率分布的抽样、概率分布数学期望的估计、定积分的近似计算。随机抽样是蒙特卡罗法的一种应用,有直接抽样法、接受拒绝抽样法等。接受拒绝法的基本想法是,找一个容易抽样的建议分布,其密度函数的数倍大于等于想要抽样的概率分布的密度函数。按照建议分布随机抽样得到样本,再按要抽样的概率分布与建议分布的倍数的比例随机决定接受或拒绝该样本,循环执行以上过程。原创 2021-07-01 00:17:54 · 325 阅读 · 0 评论 -
糖尿病预测模型
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsPregnancies:怀孕次数Glucose:葡萄糖测试值BloodPressure:血压SkinThickness:皮肤厚度Insulin:胰岛素BMI:身体质量指数DiabetesPedigreeFunction:糖尿病遗传函数Age:年龄Outcome:糖尿病标签# 载入数据diabetes_d原创 2021-06-12 15:09:09 · 1762 阅读 · 0 评论 -
L1和L2正则化
目录1.L2正则化1.1问题1.2公式1.3对应图形1.4使用场景1.5代码实现2.L1正则化lasso回归2.1公式2.2对应图形2.3使用场景2.4代码实现3.ElasticNet回归3.1公式3.2使用场景3.3代码实现1.L2正则化(岭回归)1.1问题想要理解什么是正则化,首先我们先来了解上图的方程式。当训练的特征和数据很少时,往往会造成欠拟合的情况,对应的是左边的坐标;而我们想要达到的目的往往是中间的坐标,适当的特征和数据用来训练;但往往原创 2021-06-12 14:57:40 · 127 阅读 · 0 评论 -
概率潜在语义分析
概率潜在语义分析 Probabilistic Latent Semantic Analysis1.概率潜在语义分析是利用概率生成模型对文本集合进行话题分析的方法。概率潜在语义分析受潜在语义分析的启发提出两者可以通过矩阵分解关联起来。给定一个文本集合,通过概率潜在语义分析,可以得到各个文本生成话题的条件概率分布,以及各个话题生成单词的条件概率分布。概率潜在语义分析的模型有生成模型,以及等价的共现模型。其学习策略是观测数据的极大似然估计,其学习算法是EM算法。2.生成模型表示文本生成话题,话题生成单词从原创 2021-07-01 00:18:47 · 448 阅读 · 0 评论 -
新手必备 | PyTorch基础入门教程(四)
文章目录第四周1. 权值初始化1.1 梯度消失与爆炸1.2 Xavier初始化1.3 权值初始化方法2. 损失函数2.1 损失函数概念2.2 交叉熵损失函数2.3 NLL/BCE/BCEWithLogits Loss2.4 其他损失函数2.5 作业3. 优化器3.1 优化器的概念3.2 优化器的属性3.3 优化器的方法4. 随机梯度下降4.1 learning rate 学习率4.2 momentum 动量4.3 torch.optim.SGD4.4 Pytorch的十种优化器4.5 作业第四周1. 权原创 2021-05-28 15:56:19 · 135 阅读 · 0 评论 -
新手必备 | 机器学习之非线性回归与分类(二)
文章目录m元M次多项式欠拟合与过拟合罚项岭回归范数3种不同罚项回归与分类的比较线性分类的经验误差最小实现线性回归的经验误差最小实现线性分类与线性回归的总结m元M次多项式已知P为某些m元M次多项式(即包含m个未知数、最高次数为M的多项式)的集合,那么如下的假设空间:H={h(x)=sign(p(x)),p(x)∈P}\mathcal{H}=\{h(\boldsymbol{x})=\operatorname{sign}\Big(p(\boldsymbol{x})\Big),p(\boldsymbol{x原创 2021-05-31 07:34:11 · 235 阅读 · 0 评论 -
波士顿房价预测
from sklearn.datasets import load_bostonimport numpy as np import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LassoCVimport seaborn as snshouse = load_boston()print(house.DESCR)Boston House Prices dataset========原创 2021-06-12 15:02:04 · 140 阅读 · 0 评论 -
实现复合 Cotes 公式求积分方法,以及简单的测试
#!/usr/bin/env python3# -*- coding: utf-8 -*-## @author: weili# @filename: compound_Cotes_formula.py# @copyright: https://gitee.com/weili_yzzcq/MachineLearning/numerical_analysis_calculation/# @copyright: https://github.com/2694048168/MachineLearning原创 2021-06-20 20:22:16 · 542 阅读 · 0 评论 -
聚类方法总结
聚类方法聚类是针对给定的样本,依据它们属性的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题。距离或相似度度量在聚类中起着重要作用。距离度量有闵可夫斯基距离,包括欧氏距离曼哈顿距离、切比雪夫距离、以及马哈拉诺比斯距离相似度度量有相关系数、夹角余弦用距离度量相似度时,距离越小表示样本越相似;用相关系数时,相关系数越大表示样本越相似类是样本的子集,比如有如下基本定义:用GGG表示类或簇,用xix_ixi,xjx_jxj;等表示类中的样本,用dijd_{ij}dij表示样本xix原创 2021-07-01 07:49:49 · 247 阅读 · 0 评论 -
KNN算法(源码实现)
KNN-K近邻算法### 0.引入依赖import numpy as npimport pandas as pd# 直接引入sklearn库里面的数据集,iris 鸢尾花from sklearn.datasets import load_iris# 切分数据集为训练集和测试集from sklearn.model_selection import train_test_split# 计算分类预测的准确率from sklearn.metrics import accuracy_score原创 2021-06-20 20:04:15 · 399 阅读 · 0 评论 -
新手必备 | 机器学习之逻辑回归(三)
逻辑回归通过口袋算法实现的线性二分类(即感知机)没有办法处理噪音问题,另外一种线性二分类逻辑回归可以。分错的点逻辑回归认为是由数据中的噪音导致的,也就是随机性导致的。对于感知机来说,决策边界的上下代表不同的分类,而对于逻辑回归来说,决策边界的上下代表正类的概率。Sigmoid 函数由下列公式定义的函数称为 Sigmoid 函数:S(z)=11+e−z,z∈RS(z)=\frac{1}{1+e^{-z}},\quad z\in\mathbb{R}S(z)=1+e−z1,z∈R该函数定义域为R,原创 2021-05-31 07:35:52 · 178 阅读 · 0 评论 -
潜在狄利克雷分配
潜在狄利克雷分配 Latent Dirichlet allocation1.狄利克雷分布的概率密度函数为p(θ∣α)=Γ(∑i=1kαi)∏i=1kΓ(αi)∏i=1kθiαi−1p ( \theta | \alpha ) = \frac { \Gamma ( \sum _ { i = 1 } ^ { k } \alpha _ { i } ) } { \prod _ { i = 1 } ^ { k } \Gamma ( \alpha _ { i } ) } \prod _ { i = 1 } ^ { k原创 2021-07-01 00:15:55 · 186 阅读 · 0 评论 -
k_nearest_neighbors
第三章 K 近邻法k 近邻法 k-nearest nrighbor, k-NN 是一中基于分类与回归方法K 近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的模型,不具有显式的学习过程k 近邻法基本三要素:k 值的选择、距离的度量、分类决策规则k 近邻法的实现方法 —— kd 树 : 构造 kd 树 和搜索 kd 树 的算法kkk 值小时,kkk 近邻模型更复杂;kkk 值大时,kkk 近邻模型更简单。kkk 值的选择反映了对近似误差与估计误差之间的权衡,通常由交原创 2021-07-04 15:47:10 · 135 阅读 · 0 评论 -
新手必备 | 机器学习之支持向量机(四)
文章目录决策边界宽度与支持向量最好决策边界硬间隔支持向量机改进的决策边界对偶算法对偶算法与原算法对比特征转换后的对偶算法与对偶算法对比核函数与核方法核方法与特征转换后的对偶算法比较多项式核高斯核软间隔支持向量机软间隔的原问题软间隔的对偶算法软间隔对偶算法与硬间隔对偶算法对比软间隔支持向量机、感知机、逻辑回归对比决策边界宽度与支持向量定义为决策边界与所有点的距离。决策边界的宽度被最近的点支撑住,所以这些支撑点就被称为 支持向量(Support Vector)。最好决策边界对于线性可分数据集,如果决策边原创 2021-05-31 07:38:46 · 278 阅读 · 0 评论 -
实现复合梯形求积分方法,以及简单的测试
#!/usr/bin/env python3# -*- coding: utf-8 -*-## @author: weili# @filename: compound_trapezoidal_formula.py# @copyright: https://gitee.com/weili_yzzcq/MachineLearning/numerical_analysis_calculation/# @copyright: https://github.com/2694048168/MachineLe原创 2022-08-26 23:59:58 · 416 阅读 · 0 评论