WslWslYYX-CSDN博客

原创 torch中行向量和列向量

今天在学习李沐老师的《动手学深度学习》中的数组操作部分，对于向量这一块解决了一个一直困惑我的小问题，就是：行向量和列向量怎么区别？如果要区分两者的区别，则必须用矩阵表示，对于计算机来说，单纯的一列或一行都是一个一维数组。x = torch.arange(4,dtype = torch.float32).reshape(1,-1)y = torch.arange(4,dtype = torch.float32).reshape(-1,1)x,y(tensor([[0., 1., 2., 3.

2021-12-14 18:09:17 2798

原创 jupyter notebook 导出 markdown文件格式

jupyter notebook 导出 markdown文件格式原本jupyter notebook 里面自带的可以选择导出为markdown格式，但是下载之后文件总是打不开，只能另寻他法方法：第一步：安装nbconvertpip install nbconvert-第二步：安装pandocpip install pandoc第三步：在你要转换的文件目录下输入以下指令：jupyter nbconvert --to FORMAT notebook.ipynb其中FORMAT 为

2021-11-17 23:29:40 1503 2

原创算例--Adaboost二分类算法流程实践

adaboost 算例（二分类问题）adaboost算法流程以及总结生成数据adaboost算法流程以及总结adaboost流程图：算法流程：1.初始化样本权重，每个样本都为1/m1/m1/m(m为样本数)2.在是用弱分类器后，通过学习误差率（加权样本误差率）eee,来得到该弱分类器的权重α\alphaα3.通过前一个弱分类器的权重α\alphaα，更新样本权重4.重复以上三步，知道所有分类器都完成预测，若干个弱分类器最后通过简单的加法加权得到一个强分类器。import numpy

2021-11-17 23:09:06 1955

原创算法进阶--HMM

算法进阶--HMMHMMHMM的三个基本问题前向算法后向算法HMM定义：HMM是关于时序的概率模型，描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列，再由各个状态生成观测随机序列过程HMM随机生成的状态随机序列，称为状态序列，每个状态生成一个观测，由此产生的观测序随机序列，称为观测序列序列的每个位置可看做是一个时刻目的：用来处理那些样本之间不独立的数据（结构化数据）HMM的确定：HMM由出是概率π、状态转移概率分布A以及观测概率分布B确定(其中，π为初始隐状态的概

2021-11-07 01:34:55 451

原创算法进阶--主题模型

算法进阶--主题模型前置知识前置知识Γ\GammaΓ函数： Γ\GammaΓ函数是阶乘在实数上的推广，是一个确定的数字Beta 分布：（目的：加上1B(α,β)\frac{1}{B(\alpha,\beta)}B(α,β)1使得xα−1(1−x)β−1x^{\alpha-1}(1-x)^{\beta-1}xα−1(1−x)β−1在x∈[0,1]x\in[0,1]x∈[0,1]上积分为1）Beta分布的期望为：共轭先验分布：在贝叶斯概率理论中，如果后验概率P(θ∣x)P(\theta

2021-11-05 11:09:11 207

原创算法进阶--朴素贝叶斯，贝叶斯网络，D-separation

算法进阶--贝叶斯网络朴素贝叶斯高斯朴素贝叶斯多项分布朴素贝叶斯朴素贝叶斯朴素贝叶斯是假设样本特征之间相互独立如：(通过n个特征来判断样本y的分类)P(y∣x1,x2,x3...xn)=P(x1,x2,x3...xn∣y)P(Y)P(x1,x2,x3...xn)P(y|x_1,x_2,x_3...x_n)=\frac{P(x_1,x_2,x_3...x_n|y)P(Y)}{P(x_1,x_2,x_3...x_n)}P(y∣x1,x2,x3...xn)=P(x1,x2,x3...xn

2021-11-03 18:35:02 481

原创算法进阶--EM算法

算法进阶--EM算法Jensen不等式Jensen不等式若f是凸函数：(以离散的角度来看，连续的同理)f(θx+(1−θ)y≤θf(x)+(1−θ)f(y)f(\theta x +(1-\theta)y \leq \theta f(x) +(1-\theta)f(y)f(θx+(1−θ)y≤θf(x)+(1−θ)f(y)其中 x 和 y 为f凸函数上任意两点，θ∈(0,1)\theta \in(0,1)θ∈(0,1)若θ1,...,θk≥0,θ1+...+θk=1\theta_{1},...,\

2021-11-02 21:55:20 364

原创算法进阶--层次聚类

算法进阶-聚类2层次聚类方法AGENS密度聚类方法DBSCAN算法密度最大值聚类谱聚类拉普拉斯矩阵的类型层次聚类方法定义：对给定的数据集进行层次的分解，直到某种条件满足为止分为：1.凝聚的层次聚类:AGNES算法– 一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，知道某个中介条件被满足2.分裂的层次聚类：DIANA算法– 采用自顶向下的策略，首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件AGENS簇间距离：1.最小距离：两个

2021-10-31 22:33:49 499

原创算法进阶--聚类之k-Means与其评判标准，相似度计算

算法进阶--聚类聚类聚类的基本思想K-Means 算法K-Means 补充相似度/距离计算方法总结聚类定义：聚类就是对大量未标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的相似度较小聚类的基本思想1条件：给定一个有N个对象的数据集，构造数据的k个簇，k≤nk\leq nk≤n,且满足下列条件：– 每一个簇至少包含一个对象– 每一个对象属于且仅属于一个簇– 将满足上述条件的k个簇称作一个合理划分2.思想：对于给定的类别数目k，首先给出初始划分，通过

2021-10-31 11:21:31 4677

原创算法进阶--SVM实践

算法进阶--SVM实践分类器指标（再谈）svm初步使用分类器指标（再谈）在前面precision，recall 以及F1评判指标下引入FβF_\betaFβ:Fβ=(1+β)⋅precision⋅recallβ2⋅precision+recallF_{\beta}=\frac{(1+\beta)\cdot precision \cdot recall}{\beta^{2} \cdot precision+recall}Fβ=β2⋅precision+recall(1+β)⋅precision⋅re

2021-10-28 22:57:31 366

原创算法进阶--SVM原理

算法进阶--SVM支持向量机线性可分SVM带松弛因子的SVM(线性SVM)支持向量机分为：线性可分支持向量机– hard margin maximization（硬间隔最大化），所以又称为硬间隔支持向量机线性支持向量机–soft margin maximization（软间隔最大化），所以又称为软间隔支持向量机非线性支持向量机– kernel function（核函数）ps.前两种向量机+核函数=非线性（可分）向量机线性可分SVM目的：在分类问题中，构建一个平面（直线或者超平面

2021-10-27 23:54:14 848

原创算法进阶--xgboost实践

xgboost-实践初次使用xgboost初次使用xgboostimport xgboost as xgbif __name__ == "__main__": # 读取数据 data_train = xgb.DMatrix('agaricus_train.txt') data_test = xgb.DMatrix('agaricus_test.txt') # 设置参数 param = {'max_depth': 3, 'eta': 1, 'silent':

2021-10-27 09:51:52 193

原创算法进阶--提升

算法进阶--第四天提升提升提升：是一个机器学习技术，可以用于回归和分类问题，它每一步产生一个弱预测模型（如决策树），并且加权累加到总模型中，如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提（Gradient boosting）–理论意义：如果一个问题存在弱分类器，则可以通过提升的方法得到强分类器梯度提升算法：首先给定一个目标损失函数，其定义域是所有可行的弱函数集合（基函数）,提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值...

2021-10-25 14:28:43 1309 2

原创算法进阶--决策树与随机森林

决策树与随机森林决策树决策树评价决策树的过拟合样本不均衡的常用处理方法：RF拓展之计算样本间的相似度RF拓展之计算特征重要度RF拓展之Isolation Forest决策树前置知识：信息熵：H(x)=−∑i=1p(xi)logp(xi)H(x)=-\sum_{i=1} p(x_i)logp(x_i)H(x)=−∑i=1p(xi)logp(xi)条件熵：H(Y∣X)=H(X,Y)−H(X)=−∑x,yp(x,y)logp(y∣x)H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(

2021-10-20 22:16:23 227

原创算法进阶--回归

算法进阶--第二天线性回归线性回归最小二乘之理解过程：如对房价的预测:Living area(feet2feet^2feet2)bedroomsPrice(1000$/s)2104340016003330………………此时通过对面积与卧室个数可以建立一个线性回归来对房价进行预测，预测值为hθ(x)h_\theta(x)hθ(x)：如：hθ(x)=θ0+θ1x1+θ2x2h_\theta(x)=\theta_0+\theta_1{x

2021-10-19 19:42:05 249

原创算法进阶--最大似然，赔率，Fuzzywuzzy库，主成分分析，onehot

算法进阶--第一天故地重游之最大似然估计赌徒之赔率Fuzzywuzzy库-Levenshtein distance故地重游之最大似然估计首先从贝叶斯公式开始：给定某些样本D，在这些样本中计算某结论A1,A2…An出现的概率，即P(Ai|D),若求maxP(Ai|D)，则有以下式子：– 当样本给定时，P(D)是常数，可以忽略maxP(Ai∣D)=maxP(D∣Ai)P(Ai)P(D)=max(P(D∣Ai)P(Ai))maxP(A_i|D)=max\frac{P(D|A_i)P(A_i)}{P(D)

2021-10-17 14:54:36 458

原创正则表达式

正则表达式限定符（Quantifier）或运算符（OR Operator）字符类（Character Classes）元字符（Meta-characters）贪婪/懒惰匹配（Greedy/Lazy Match）之前学python的时候没有学习正则，今天回来补一下也是看了一个视频稍微了解了一些基础概念视频连接：10分钟快速掌握正则表达式限定符（Quantifier）a*→a出现0次或多次a+→a出现1次或多次a？→出现0次或1次a{6}→a出现六次a{2,6}→a出现2-6次a{2,}→

2021-10-16 01:27:45 158

原创机器学习算法基础--线性回归，最小二乘法，梯度下降，逻辑斯特回归，k-means

机器学习算法基础--第四天线性回归线性关系模型损失函数（误差大小）最小二乘法梯度下降与正规方程对比线性回归评价机制--均方误差过拟合与欠拟合过拟合解决方法之正则化L2正则化sklearn--模型的保存与加载分类算法--逻辑斯特回归对数似然损失--逻辑回归均方误差vs对数似然损失线性回归定义：线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析。其中可以为一个或多个自变量之间的线性组合（线性回归的一种）线性关系模型一个通过属性的线性组合来进行预测的函数：– f(x)=w1x1+w2x2

2021-10-16 00:05:17 451

原创机器学习算法基础--朴素贝叶斯，评判标准，交叉验证与网格搜索，决策树，随机森林

机器学习算法基础--第三天朴素贝叶斯算法原理精确率和召回率朴素贝叶斯算法原理前话：要了解朴素贝叶斯，首先得了解贝叶斯原理：贝叶斯视频连接：贝叶斯贝叶斯公式：P(A∣B)=P(A)∗P(B∣A)P(B)P(A|B)=\frac{P(A)*P(B|A)}{P(B)}P(A∣B)=P(B)P(A)∗P(B∣A)而朴素贝叶斯，则是假定特征值之间相互独立的情况下题目：根据朴素贝叶斯可求得：P(科技∣影院，支付宝，云计算)=P(影院，支付宝，云计算∣科技)∗P(科技)P(科技|影院，支付宝，云计算

2021-10-15 00:22:36 683

原创机器学习算法基础--特征选择，主成分分析，sklearn数据集，KNN

机器学习算法基础--第二天数据降维特征选择VarianceThreshold(threshold=0.0)主成分分析机器学习算法分类机器学习开发流程sklearn数据集sk-learn数据集API介绍获取数据集返回的类型估计器k-近邻算法（KNN）--分类算法数据降维定义：减少特征数量数据降维分为两种：特征选择：单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值，也可以不改变值，但是选择后的特征维数肯定比选择前小主成分分析特征选择主要方法：1.Filt

2021-10-14 00:21:07 566 1

原创机器学习算法基础--基础概念，特征抽取，归一化，标准化，sklearn缺失值处理

机器学习算法基础--第一天机器学习基础概念机器学习基础概念机器学习：从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测数据集：数据集的数据结构组成：特征值+目标值可用数据集：1.Kaggle特点：（1）.大数据竞赛平台（2）.真实数据（3）.数据量巨大2.scikit-learn特点：（1）.数据量较小（2）.方便学习3.UCI（1）.收录了360个数据集（2）.覆盖科学，生活，经济等领域（3）.数据量几十万数据处理工具1.pandas：一个数据读

2021-10-12 22:42:03 252

原创 MySQL学习--mysql账户管理，视图，索引，条件语句，mysql函数，mysql与python

MySQL学习--第三天MySQL账户管理概述用户与权限管理创建用户并授予权限查看用户权限回收权限修改密码删除用户事务概述事务处理--手动提交事务MySQL账户管理概述MySQL的账户管理包括登录和退出MySQL服务器、创建用户、删除用户、密码管理和权限管理等内容。通过账户管理，可以保证MySQL数据库的安全性MySQL中的root账号拥有最高权限，包括删库，删表。在生产环境下一班不会使用root账号登录数据库，MySQL中的用户信息保存在mysql库下的user表中如：mysql> s

2021-10-11 18:48:38 230 2

原创 MySQL学习--条件查询，聚合函数，分组查询，limit分页，连接查询，子查询，保存查询结果

MySQL学习--第二天条件查询逻辑与或非：模糊查询between查询null值判断排序选择聚合函数分组查询limit分页连接查询内连接查询左右连接全连接子查询条件查询逻辑与或非：与或非andornot模糊查询like 表示模糊查询选项：% 表示任意多个字符，如%广，搜索有广的字段_ 表示一个字符rlike 可以匹配正则in 包含在里面的如果匹配%本身，那么则需要使用%%between查询betweem and →表示一段区间null值判

2021-10-10 23:57:55 188

原创 Mysql学习--linux安装mysql，数据库配置，数据库管理，数据库表管理

Mysql学习--第一天数据库概述MySQL数据库介绍在Linux 上安装MySQL数据库安装好之后配置远程登录：（我是用的腾讯云的Ubuntu）启动服务:查看服务是否启动：进入mysql并选择mysql数据库：配置远程连接：登录mysql 数据库数据库管理查看数据库版本：显示当前时间：查看所有数据库：创建数据库：切换数据库：查看目前正在使用的数据库:删除数据库：数据库表管理-数据表设计相关定义：查看当前数据库中的表创建表comment注释显示表查看创建表的sql语句添加列删除列修改列数据库操作查询语句插入

2021-10-10 00:02:11 325

原创 Linux学习--linux文件查找，管道符，输出重定向，文件打包解包，vim编辑器

Linux学习--第三天Linux 文件查找命令gerp管道符 |‘>’输出重定向文件打包和解包命令Ubuntu 软件管理Linux vim编辑器vim命令模式插入模式进入末行模式Linux 文件查找命令which 命令：which 命令用于查找并显示给定命令的绝对路径，环境变量PATH中保存了查找命令时修安排遍历的目录。命令： which [系统命令]，export PATH=$PATH：[路径]，配置PATH环境变量which 是根据使用者所配置的PATH变量内的目录去搜索可运行文档的，

2021-10-08 19:04:37 229

原创 Linux学习--linux用户管理，权限管理，远程管理，系统信息管理

Linux学习--第二天用户、用户组和权限管理用户管理用户、用户组和权限管理用户：要登录Linux必须要有一个用户，一台Linux系统下可以用多个用户，并且每个用户可有不同的权限。在Linux中可以指定用户对不同的文件、目录拥有不同的权限用户组：不同的用户分配到一个组，同组下的用户，都拥有这个组的权限权限：Linux权限有三种，读、写、执行用户管理用户管理包括：创建用户、删除用户、修改用户账号属性、创建用户组、修改用户组属性其中，创建用户/删除用户/修改其他用户密码的终端命令都需要通过su

2021-10-08 13:08:34 1786

原创 Linux学习--linux系统简介，常用命令

Linux学习--第一天Liunx操作系统简介Liunx操作系统简介虚拟机(Virtual Machine)：指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整的计算机系统.虚拟系统通过生成现有操作系统的全新虚拟镜像，具有真实操作系统完全一样的功能，进入虚拟系统后，所有操作都是在这个全新的独立的虚拟系统里面进行，可以独立安装运行软件，保存数据，拥有自己的独立桌面。...

2021-10-06 23:18:55 198

原创数据科学库--pandas中的时间序列

数据科学库--第六天应用pandas 中的时间序列应用统计911报警电话原因的分类第一种方式：构建全为0的Dataframeimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfile_path = "./911.csv"df = pd.read_csv(file_path)#获取分类temp_list = df["title"].str.split(":").tolist()cate_l

2021-10-05 21:58:22 222

原创数据科学库--pandas中数据分组聚合，数据的索引，数据的合并

数据科学库--第五天实操数据的合并pandas中数据分组聚合pandas中数据的索引实操问题：分析统计一组电影数据的电影分类的情况import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfile_path = r"F:\NLP项目\IMDB-Movie-Data.csv"df = pd.read_csv(file_path)# print(df["Genre"].head(3))# 统计分类的列表

2021-10-03 15:53:01 279

原创数据科学库学习--pandas常用数据类型，loc方法，pandas缺失值处理

数据科学库--第四天pandas的常用数据类型pandas的常用数据类型pandas是基于numpy数组构建的，但二者最大的不同是pandas是专门为处理表格和混杂数据设计的，比较契合统计分析中的表结构，而numpy更适合处理统一的数值数组数据。pandas数组结构有一维Series和二维DataFrame。1.Series 一维，带标签数组2.DataFrame 二维，Series容器创建一个Series例一：import pandas as pdt = pd.Series([1, 2,

2021-10-02 11:25:04 602

原创数据科学库--numpy中对数组，文件的操作，索引和切片，对缺失值的处理，数据拼接，等其他方法

数据科学库--第四天numpy中的对数组的一些基本操作numpy对文件的读取操作numpy中的对数组的一些基本操作下面是numpy在对数组处理上的一些基本应用：import numpy as npimport randomt1 = np.array([1, 2, 3])print(t1)print(type(t1))t2 = np.arange(4, 10, 3)print(t2)print(type(t2))print(t2.dtype)# numpy中的数据类型t3 =

2021-10-01 18:04:22 255

原创数据科学库学习--常用统计图，matplotlib绘制各种图形

数据科学库学习--第二天matplotlib 绘制散点图matplotlib 绘制散点图应用：1.不同条件(维度)之间的内在关联关系2.观察数据的离散聚合程度代码：from matplotlib import pyplot as pltfrom matplotlib import font_manager# 设置中文字体my_font = font_manager.FontProperties(fname=r'C:\Windows\Fonts\msyh.ttc')y_3 = [4,

2021-09-29 17:31:12 375

原创 leetcode--二分查找

leetcode--刷题日记第一天二分查找二分查找

2021-09-25 00:08:58 229

原创机器学习数据科学库--数据分析流程，matplotlib

机器学习数据科学库--第一天数据分析流程matplotlib数据分析流程#mermaid-svg-Xwj0XDykfPec1fIv .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-Xwj0XDykfPec1fIv .label text{fill:#333}#mermaid-svg-Xwj0XDykfPec1

2021-09-24 22:23:57 191

空空如也

空空如也