自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 torch中行向量和列向量

今天在学习李沐老师的《动手学深度学习》中的数组操作部分,对于向量这一块解决了一个一直困惑我的小问题,就是:行向量和列向量怎么区别?如果要区分两者的区别,则必须用矩阵表示,对于计算机来说,单纯的一列或一行都是一个一维数组。x = torch.arange(4,dtype = torch.float32).reshape(1,-1)y = torch.arange(4,dtype = torch.float32).reshape(-1,1)x,y(tensor([[0., 1., 2., 3.

2021-12-14 18:09:17 2780

原创 jupyter notebook 导出 markdown文件格式

jupyter notebook 导出 markdown文件格式原本jupyter notebook 里面自带的可以选择导出为markdown格式,但是下载之后文件总是打不开,只能另寻他法方法:第一步:安装nbconvertpip install nbconvert-第二步:安装pandocpip install pandoc第三步:在你要转换的文件目录下输入以下指令:jupyter nbconvert --to FORMAT notebook.ipynb其中FORMAT 为

2021-11-17 23:29:40 1484 2

原创 算例--Adaboost二分类算法流程实践

adaboost 算例(二分类问题)adaboost算法流程以及总结生成数据adaboost算法流程以及总结adaboost流程图:算法流程:1.初始化样本权重,每个样本都为1/m1/m1/m(m为样本数)2.在是用弱分类器后,通过学习误差率(加权样本误差率)eee,来得到该弱分类器的权重α\alphaα3.通过前一个弱分类器的权重α\alphaα,更新样本权重4.重复以上三步,知道所有分类器都完成预测,若干个弱分类器最后通过简单的加法加权得到一个强分类器。import numpy

2021-11-17 23:09:06 1913

原创 算法进阶--HMM

算法进阶--HMMHMMHMM的三个基本问题前向算法后向算法HMM定义:HMM是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列过程HMM随机生成的状态随机序列,称为状态序列,每个状态生成一个观测,由此产生的观测序随机序列,称为观测序列序列的每个位置可看做是一个时刻目的:用来处理那些样本之间不独立的数据(结构化数据)HMM的确定:HMM由出是概率π、状态转移概率分布A以及观测概率分布B确定(其中,π为初始隐状态的概

2021-11-07 01:34:55 437

原创 算法进阶--主题模型

算法进阶--主题模型前置知识前置知识Γ\GammaΓ函数: Γ\GammaΓ函数是阶乘在实数上的推广,是一个确定的数字Beta 分布:(目的:加上1B(α,β)\frac{1}{B(\alpha,\beta)}B(α,β)1​使得xα−1(1−x)β−1x^{\alpha-1}(1-x)^{\beta-1}xα−1(1−x)β−1在x∈[0,1]x\in[0,1]x∈[0,1]上积分为1)Beta分布的期望为:共轭先验分布:在贝叶斯概率理论中,如果后验概率P(θ∣x)P(\theta

2021-11-05 11:09:11 199

原创 算法进阶--朴素贝叶斯,贝叶斯网络,D-separation

算法进阶--贝叶斯网络朴素贝叶斯高斯朴素贝叶斯多项分布朴素贝叶斯朴素贝叶斯朴素贝叶斯是假设样本特征之间相互独立如:(通过n个特征来判断样本y的分类)P(y∣x1,x2,x3...xn)=P(x1,x2,x3...xn∣y)P(Y)P(x1,x2,x3...xn)P(y|x_1,x_2,x_3...x_n)=\frac{P(x_1,x_2,x_3...x_n|y)P(Y)}{P(x_1,x_2,x_3...x_n)}P(y∣x1​,x2​,x3​...xn​)=P(x1​,x2​,x3​...xn​

2021-11-03 18:35:02 471

原创 算法进阶--EM算法

算法进阶--EM算法Jensen不等式Jensen不等式若f是凸函数:(以离散的角度来看,连续的同理)f(θx+(1−θ)y≤θf(x)+(1−θ)f(y)f(\theta x +(1-\theta)y \leq \theta f(x) +(1-\theta)f(y)f(θx+(1−θ)y≤θf(x)+(1−θ)f(y)其中 x 和 y 为f凸函数上任意两点,θ∈(0,1)\theta \in(0,1)θ∈(0,1)若θ1,...,θk≥0,θ1+...+θk=1\theta_{1},...,\

2021-11-02 21:55:20 351

原创 算法进阶--层次聚类

算法进阶-聚类2层次聚类方法AGENS密度聚类方法DBSCAN算法密度最大值聚类谱聚类拉普拉斯矩阵的类型层次聚类方法定义:对给定的数据集进行层次的分解,直到某种条件满足为止分为:1.凝聚的层次聚类:AGNES算法– 一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,知道某个中介条件被满足2.分裂的层次聚类:DIANA算法– 采用自顶向下的策略,首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件AGENS簇间距离:1.最小距离:两个

2021-10-31 22:33:49 492

原创 算法进阶--聚类之k-Means与其评判标准,相似度计算

算法进阶--聚类聚类聚类的基本思想K-Means 算法K-Means 补充相似度/距离计算方法总结聚类定义:聚类就是对大量未标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的相似度较小聚类的基本思想1条件:给定一个有N个对象的数据集,构造数据的k个簇,k≤nk\leq nk≤n,且满足下列条件:– 每一个簇至少包含一个对象– 每一个对象属于且仅属于一个簇– 将满足上述条件的k个簇称作一个合理划分2.思想:对于给定的类别数目k,首先给出初始划分,通过

2021-10-31 11:21:31 4654

原创 算法进阶--SVM实践

算法进阶--SVM实践分类器指标(再谈)svm初步使用分类器指标(再谈)在前面precision,recall 以及F1评判指标下引入FβF_\betaFβ​:Fβ=(1+β)⋅precision⋅recallβ2⋅precision+recallF_{\beta}=\frac{(1+\beta)\cdot precision \cdot recall}{\beta^{2} \cdot precision+recall}Fβ​=β2⋅precision+recall(1+β)⋅precision⋅re

2021-10-28 22:57:31 359

原创 算法进阶--SVM原理

算法进阶--SVM支持向量机线性可分SVM带松弛因子的SVM(线性SVM)支持向量机分为:线性可分支持向量机– hard margin maximization(硬间隔最大化),所以又称为硬间隔支持向量机线性支持向量机–soft margin maximization(软间隔最大化),所以又称为软间隔支持向量机非线性支持向量机– kernel function(核函数)ps.前两种向量机+核函数=非线性(可分)向量机线性可分SVM目的: 在分类问题中,构建一个平面(直线或者超平面

2021-10-27 23:54:14 829

原创 算法进阶--xgboost实践

xgboost-实践初次使用xgboost初次使用xgboostimport xgboost as xgbif __name__ == "__main__": # 读取数据 data_train = xgb.DMatrix('agaricus_train.txt') data_test = xgb.DMatrix('agaricus_test.txt') # 设置参数 param = {'max_depth': 3, 'eta': 1, 'silent':

2021-10-27 09:51:52 186

原创 算法进阶--提升

算法进阶--第四天提升提升提升:是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并且加权累加到总模型中,如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提(Gradient boosting)–理论意义:如果一个问题存在弱分类器,则可以通过提升的方法得到强分类器梯度提升算法:首先给定一个目标损失函数,其定义域是所有可行的弱函数集合(基函数),提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值...

2021-10-25 14:28:43 1288 2

原创 算法进阶--决策树与随机森林

决策树与随机森林决策树决策树评价决策树的过拟合样本不均衡的常用处理方法:RF拓展之计算样本间的相似度RF拓展之计算特征重要度RF拓展之Isolation Forest决策树前置知识:信息熵:H(x)=−∑i=1p(xi)logp(xi)H(x)=-\sum_{i=1} p(x_i)logp(x_i)H(x)=−∑i=1​p(xi​)logp(xi​)条件熵:H(Y∣X)=H(X,Y)−H(X)=−∑x,yp(x,y)logp(y∣x)H(Y|X)=H(X,Y)-H(X)=-\sum_{x,y}p(

2021-10-20 22:16:23 223

原创 算法进阶--回归

算法进阶--第二天线性回归线性回归最小二乘之理解过程:如对房价的预测:Living area(feet2feet^2feet2)bedroomsPrice(1000$/s)2104340016003330………………此时通过对面积与卧室个数可以建立一个线性回归来对房价进行预测,预测值为hθ(x)h_\theta(x)hθ​(x):如:hθ(x)=θ0+θ1x1+θ2x2h_\theta(x)=\theta_0+\theta_1{x

2021-10-19 19:42:05 242

原创 算法进阶--最大似然,赔率,Fuzzywuzzy库,主成分分析,onehot

算法进阶--第一天故地重游之最大似然估计赌徒之赔率Fuzzywuzzy库-Levenshtein distance故地重游之最大似然估计首先从贝叶斯公式开始:给定某些样本D,在这些样本中计算某结论A1,A2…An出现的概率,即P(Ai|D),若求maxP(Ai|D),则有以下式子:– 当样本给定时,P(D)是常数,可以忽略maxP(Ai∣D)=maxP(D∣Ai)P(Ai)P(D)=max(P(D∣Ai)P(Ai))maxP(A_i|D)=max\frac{P(D|A_i)P(A_i)}{P(D)

2021-10-17 14:54:36 441

原创 正则表达式

正则表达式限定符(Quantifier)或运算符(OR Operator)字符类(Character Classes)元字符(Meta-characters)贪婪/懒惰匹配(Greedy/Lazy Match)之前学python的时候没有学习正则,今天回来补一下也是看了一个视频稍微了解了一些基础概念视频连接:10分钟快速掌握正则表达式限定符(Quantifier)a*→a出现0次或多次a+→a出现1次或多次a?→出现0次或1次a{6}→a出现六次a{2,6}→a出现2-6次a{2,}→

2021-10-16 01:27:45 156

原创 机器学习算法基础--线性回归,最小二乘法,梯度下降,逻辑斯特回归,k-means

机器学习算法基础--第四天线性回归线性关系模型损失函数(误差大小)最小二乘法梯度下降与正规方程对比线性回归评价机制--均方误差过拟合与欠拟合过拟合解决方法之正则化L2正则化sklearn--模型的保存与加载分类算法--逻辑斯特回归对数似然损失--逻辑回归均方误差vs对数似然损失线性回归定义:线性回归通过一个或者多个自变量与因变量之间进行建模的回归分析。其中可以为一个或多个自变量之间的线性组合(线性回归的一种)线性关系模型一个通过属性的线性组合来进行预测的函数:– f(x)=w1x1+w2x2

2021-10-16 00:05:17 428

原创 机器学习算法基础--朴素贝叶斯,评判标准,交叉验证与网格搜索,决策树,随机森林

机器学习算法基础--第三天朴素贝叶斯算法原理精确率和召回率朴素贝叶斯算法原理前话:要了解朴素贝叶斯,首先得了解贝叶斯原理:贝叶斯视频连接:贝叶斯贝叶斯公式:P(A∣B)=P(A)∗P(B∣A)P(B)P(A|B)=\frac{P(A)*P(B|A)}{P(B)}P(A∣B)=P(B)P(A)∗P(B∣A)​而朴素贝叶斯,则是假定特征值之间相互独立的情况下题目:根据朴素贝叶斯可求得:P(科技∣影院,支付宝,云计算)=P(影院,支付宝,云计算∣科技)∗P(科技)P(科技|影院,支付宝,云计算

2021-10-15 00:22:36 669

原创 机器学习算法基础--特征选择,主成分分析,sklearn数据集,KNN

机器学习算法基础--第二天数据降维特征选择VarianceThreshold(threshold=0.0)主成分分析机器学习算法分类机器学习开发流程sklearn数据集sk-learn数据集API介绍获取数据集返回的类型估计器k-近邻算法(KNN)--分类算法数据降维定义:减少特征数量数据降维分为两种:特征选择:单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值,但是选择后的特征维数肯定比选择前小主成分分析特征选择主要方法:1.Filt

2021-10-14 00:21:07 543 1

原创 机器学习算法基础--基础概念,特征抽取,归一化,标准化,sklearn缺失值处理

机器学习算法基础--第一天机器学习基础概念机器学习基础概念机器学习:从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测数据集:数据集的数据结构组成:特征值+目标值可用数据集:1.Kaggle特点:(1).大数据竞赛平台(2).真实数据(3).数据量巨大2.scikit-learn特点:(1).数据量较小(2).方便学习3.UCI(1).收录了360个数据集(2).覆盖科学,生活,经济等领域(3).数据量几十万数据处理工具1.pandas:一个数据读

2021-10-12 22:42:03 241

原创 MySQL学习--mysql账户管理,视图,索引,条件语句,mysql函数,mysql与python

MySQL学习--第三天MySQL账户管理概述用户与权限管理创建用户并授予权限查看用户权限回收权限修改密码删除用户事务概述事务处理--手动提交事务MySQL账户管理概述MySQL的账户管理包括登录和退出MySQL服务器、创建用户、删除用户、密码管理和权限管理等内容。通过账户管理,可以保证MySQL数据库的安全性MySQL中的root账号拥有最高权限,包括删库,删表。在生产环境下一班不会使用root账号登录数据库,MySQL中的用户信息保存在mysql库下的user表中如:mysql> s

2021-10-11 18:48:38 222 2

原创 MySQL学习--条件查询,聚合函数,分组查询,limit分页,连接查询,子查询,保存查询结果

MySQL学习--第二天条件查询逻辑与或非:模糊查询between查询null值判断排序选择聚合函数分组查询limit分页连接查询内连接查询左右连接全连接子查询条件查询逻辑与或非:与或非andornot模糊查询like 表示模糊查询选项:% 表示任意多个字符,如%广,搜索有广的字段_ 表示一个字符rlike 可以匹配正则in 包含在里面的如果匹配%本身,那么则需要使用%%between查询betweem and →表示一段区间null值判

2021-10-10 23:57:55 181

原创 Mysql学习--linux安装mysql,数据库配置,数据库管理,数据库表管理

Mysql学习--第一天数据库概述MySQL数据库介绍在Linux 上安装MySQL数据库安装好之后配置远程登录:(我是用的腾讯云的Ubuntu)启动服务:查看服务是否启动:进入mysql并选择mysql数据库:配置远程连接:登录mysql 数据库数据库管理查看数据库版本:显示当前时间:查看所有数据库:创建数据库:切换数据库:查看目前正在使用的数据库:删除数据库:数据库表管理-数据表设计相关定义:查看当前数据库中的表创建表comment注释显示表查看创建表的sql语句添加列删除列修改列数据库操作查询语句插入

2021-10-10 00:02:11 320

原创 Linux学习--linux文件查找,管道符,输出重定向,文件打包解包,vim编辑器

Linux学习--第三天Linux 文件查找命令gerp管道符 |‘>’输出重定向文件打包和解包命令Ubuntu 软件管理Linux vim编辑器vim命令模式插入模式进入末行模式Linux 文件查找命令which 命令:which 命令用于查找并显示给定命令的绝对路径,环境变量PATH中保存了查找命令时修安排遍历的目录。命令: which [系统命令],export PATH=$PATH:[路径],配置PATH环境变量which 是根据使用者所配置的PATH变量内的目录去搜索可运行文档的,

2021-10-08 19:04:37 222

原创 Linux学习--linux用户管理,权限管理,远程管理,系统信息管理

Linux学习--第二天用户、用户组和权限管理用户管理用户、用户组和权限管理用户: 要登录Linux必须要有一个用户,一台Linux系统下可以用多个用户,并且每个用户可有不同的权限。在Linux中可以指定用户对不同的文件、目录拥有不同的权限用户组:不同的用户分配到一个组,同组下的用户,都拥有这个组的权限权限:Linux权限有三种,读、写、执行用户管理用户管理包括:创建用户、删除用户、修改用户账号属性、创建用户组、修改用户组属性其中,创建用户/删除用户/修改其他用户密码的终端命令都需要通过su

2021-10-08 13:08:34 1775

原创 Linux学习--linux系统简介, 常用命令

Linux学习--第一天Liunx操作系统简介Liunx操作系统简介虚拟机(Virtual Machine):指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整的计算机系统.虚拟系统通过生成现有操作系统的全新虚拟镜像,具有真实操作系统完全一样的功能,进入虚拟系统后,所有操作都是在这个全新的独立的虚拟系统里面进行,可以独立安装运行软件,保存数据,拥有自己的独立桌面。...

2021-10-06 23:18:55 195

原创 数据科学库--pandas中的时间序列

数据科学库--第六天应用pandas 中的时间序列应用统计911报警电话原因的分类第一种方式:构建全为0的Dataframeimport pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfile_path = "./911.csv"df = pd.read_csv(file_path)#获取分类temp_list = df["title"].str.split(":").tolist()cate_l

2021-10-05 21:58:22 212

原创 数据科学库--pandas中数据分组聚合,数据的索引,数据的合并

数据科学库--第五天实操数据的合并pandas中数据分组聚合pandas中数据的索引实操问题:分析统计一组电影数据的电影分类的情况import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfile_path = r"F:\NLP项目\IMDB-Movie-Data.csv"df = pd.read_csv(file_path)# print(df["Genre"].head(3))# 统计分类的列表

2021-10-03 15:53:01 273

原创 数据科学库学习--pandas常用数据类型,loc方法,pandas缺失值处理

数据科学库--第四天pandas的常用数据类型pandas的常用数据类型pandas是基于numpy数组构建的,但二者最大的不同是pandas是专门为处理表格和混杂数据设计的,比较契合统计分析中的表结构,而numpy更适合处理统一的数值数组数据。pandas数组结构有一维Series和二维DataFrame。1.Series 一维,带标签数组2.DataFrame 二维,Series容器创建一个Series例一:import pandas as pdt = pd.Series([1, 2,

2021-10-02 11:25:04 598

原创 数据科学库--numpy中对数组,文件的操作,索引和切片,对缺失值的处理,数据拼接,等其他方法

数据科学库--第四天numpy中的对数组的一些基本操作numpy对文件的读取操作numpy中的对数组的一些基本操作下面是numpy在对数组处理上的一些基本应用:import numpy as npimport randomt1 = np.array([1, 2, 3])print(t1)print(type(t1))t2 = np.arange(4, 10, 3)print(t2)print(type(t2))print(t2.dtype)# numpy中的数据类型t3 =

2021-10-01 18:04:22 250

原创 数据科学库学习--常用统计图,matplotlib绘制各种图形

数据科学库学习--第二天matplotlib 绘制散点图matplotlib 绘制散点图应用:1.不同条件(维度)之间的内在关联关系2.观察数据的离散聚合程度代码:from matplotlib import pyplot as pltfrom matplotlib import font_manager# 设置中文字体my_font = font_manager.FontProperties(fname=r'C:\Windows\Fonts\msyh.ttc')y_3 = [4,

2021-09-29 17:31:12 365

原创 leetcode--二分查找

leetcode--刷题日记第一天二分查找二分查找

2021-09-25 00:08:58 218

原创 机器学习数据科学库--数据分析流程,matplotlib

机器学习数据科学库--第一天数据分析流程matplotlib数据分析流程#mermaid-svg-Xwj0XDykfPec1fIv .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-Xwj0XDykfPec1fIv .label text{fill:#333}#mermaid-svg-Xwj0XDykfPec1

2021-09-24 22:23:57 189

原创 数据结构与算法--树,二叉树,二叉树遍历

数据结构与算法--第六天树树的术语树的种类二叉树的性质二叉树的四种遍历方式树定义:是一种抽象数据类型(ADT)或是这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)个有限节点组成一个具有层次关系的集合。具有以下特点:每个节点或零个或多个子节点没有父节点的节点称为根节点每一个非根节点有且只有一个父节点除了根节点外,每个子节点可以分为多个不想交的子树树的术语节点的度:一个节点含有子树的个数称为该节点的度树的度:一棵树中,最大的节点的度称为树的度

2021-09-23 15:19:29 264

原创 数据结构与算法--快速排序,归并排序,二分查找,排序算法效率比较

数据结构与算法--第五天快速排序归并排序快速排序思路:将列表中的第一个数设置成一个中间比较值,然后比它小的放左边,比它大的放右边,排序完成后,在将左边列表的第一个值设置成中间比较值,以及将右边列表的第一个值设置成中间比较值,然后继续进行排序,直到子列表只有一个数时,就排序完成时间复杂度:快速排序的时间复杂度为:最好情况 O(n) = nlog2 (n)最坏情况 O(n) = n²def quick_sort(alist, first, last): # 当下面的递归调用到最后列表只剩下一

2021-09-22 23:41:41 259

原创 数据结构与算法-- 栈与队列,排序算法稳定性,冒泡,选择,插入,希尔排序

数据结构与算法--第四天栈与队列的概念排序算法的稳定性栈与队列的概念栈(stack ):是一种容器,可存入数据元素、访问元素、删除元素,它的特点在于只能允许在容器的一端进行加入(push)数据和输出(pop)数据的运算。没有了位置概念,保证任何时候可以访问、删除的元素都是此前最后存入的那个元素,确定了一种默认的访问顺序(先进后出)队列(queue):只允许在一端进行插入操作,而在另一端进行删除操作的线性表队列是一种先进先出的线性表,允许插入的一端为队尾,允许删除的一端为队头。队列不允许在中间部位

2021-09-21 00:11:35 204

原创 数据结构与算法-- 单链表以及实现,双向链表,单项循环链表

数据结构与算法--第三天单链表的一些简单方法的实现链表与顺序表的对比单链表的一些简单方法的实现代码:class Node(object): ''' 节点 ''' def __init__(self, elem): ''' :param elem: 元素域,存放元素的地方 next:存放下一个节点的地址信息,一开始设置为空 ''' self.elem = elem se

2021-09-19 00:00:05 222

原创 数据结构与算法--顺序表,python中变量标识的本质

2021-09-17数据结构与算法--第二天H

2021-09-17 23:59:00 205

原创 数据结构与算法--算法的概念,时间负责度,timeit,python列表类型不同操作的时间效率

数据结构与算法--第一天算法的概念以及特性算法的概念以及特性算法的概念:算法是计算机处理信息的本质,因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地,当算法在处理信息时,会从输入设备或数据的存储地址读取数据,把结果写入输出设备或某个存储地址供以后再调用算法的五大特性:1.输入:算法具有0个或多个输入2.输出:算法至少有1个或多个输出3.有穷性:算法在有限的步骤之后会自动结束而不会无限循环,并且每一个步骤可以在接收的时间内完成4.确定性:算法中的每一步都有确定的

2021-09-16 22:02:07 266

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除