- 博客(32)
- 收藏
- 关注
原创 机器学习oi
此时可调整权重,根据权重做采样,新的数据集里会对原先模型里预测错误的两个数据多加关注。由该做一个模型,该模型反过来对其做预测。(1)原型聚类通常只能找到椭球形聚类。(2)密度聚类可以找到香蕉型聚类。聚类好坏不存在绝对标准。
2023-10-22 15:16:18 70
原创 机器学习oi
贝叶斯学习的根本是认为参数本身不是个客观存在的对象,而是某一个分布产生的观察。-贝叶斯分类器只要是生成式模型,并且使用了贝叶斯公式,就可以称为贝叶斯分类器。-频率主义是点估计,贝叶斯主义是分布估计。-使用了贝叶斯公式不代表就是贝叶斯学习。-但贝叶斯学习一定是使用分布估计。5.朴素贝叶斯分类器。
2023-10-22 11:33:00 70
原创 机器学习oo
前馈网络:神经元之间不存在同层连接也不存在跨层连接。多层前馈网络有强大的表达能力,即万有逼近性。隐层和输出层神经元亦称“功能单元”通常会使用所有支持向量求解的平均值。2.典型的神经元激活函数。3.多层前馈网络结构。5.支持向量机基本型。7.求解---SMO。
2023-10-14 17:19:43 67
原创 机器学习oi
1.线性模型2.线性回归3.最小二乘法4.多元线性回归5.二分类任务6.对数几率回归(分类学习算法)对数几率的好处:(1)无需事先假设数据分类(2)可得到 “类别” 的近似概率预测(3)可直接应用现有数值优化算法求解最优解7.对率回归的求解。
2023-10-08 17:51:44 56
原创 机器学习(吴ed--周zh)
(1)任何一个有效的机器学习算法必有其偏好,偏好是否与问题本身匹配,会决定算法性能。并不是训练误差越小越好,太小的时候可能把不该学的也学了。例如一百个西瓜,预测十个是好的。(1)原来的数据和现在的数据符合某种同样的规律。验证集:训练集中留出的专门用来调参数的一部分。查准率即这十个里,有几个是好的,占十的百分比。查全率即总共多少个好的,预测的十个占的百分比。过拟合:把数据集的特殊规律当成一般规律泛化。根据类别均匀分布采样叫做分层采样。对新的没见过的数据的处理能力。(3)查准率和查全率。
2023-10-08 12:17:32 63
原创 机器学习dd
2.如果lambda设置为一个非常非常大的数,相当于在右边的这个正则化项上赋予了非常大的权重,此时会欠拟合。1.如果lambda设置为0,则您根本没有使用正则化项,因为正则化项乘以0,此时会过度拟合。但是特征选择的缺点即,只通过使用特征的子集,算法会丢弃一些关于房子的信息。第三种被称为 high variance ,高变型,第一种是高买家。如果要消除特性中的一些,将其参数设置为0,即等于消除了一个特征。1.首要工具就是获取更多的训练数据。2.或者看看能否使用更少的特征。
2023-10-01 17:36:09 45
原创 机器学习cc
预测F-X距离Y的真实值越远,损失越高,所以当真正的标签是1时,箭头被强烈激励不要预测太接近0的东西。只要使用的特征是x1,x2,x3,,,b等,生成的边界永远会是线性的,永远会是一条直线。当给直线回归添加一个移动的例子,产生的分界线被称为决策边界。输入一个特征或一组特征x,输出0到1之间的数字。此时w1,w2,b分别是1,1,3。得到的输出y即为概率。逻辑回归简化版代价函数。3.更复杂的决策边界。
2023-10-01 11:40:39 73
原创 机器学习bb
1.非常非常小的alpha值并不是训练学习算法最有效的方法,如果学习率太小,那么可能需要大量迭代才能收敛。2.学习曲线的作用:一个先期模型需要收敛多少次迭代是很难得知的,便于找到适合时间停止的特定模型。1.当有不同的特征时,他们会有非常不同的值范围,可以使直线下降运行缓慢,也可以缩放不同的功能。横轴与以往不同,并非w或b,而是最大间隙的迭代次数,而纵轴是对应迭代次数之后得到的代价j。2.np.dot(w,x)实现了因子w和x之间的点积。4.np.dot(w,x)的计算过程。多元线性回归的梯度下降法。
2023-09-24 17:24:49 65
原创 机器学习aa
监督学习监督学习1.回归算法 学习从无限个可能的数字中预测数字,试图预测任意数对无限多个可能数的排序2.分类算法 只试图预测少量可能的输出,但是输入可以有多个无监督学习聚类算法。
2023-09-23 17:28:51 101
原创 pandas
2.索引:一个的时候直接传入序号,多个的时候传入序号或者index的列表。所取的数据为一列则为series,两列或者多列即为dataframe。1,通过字典创建一个Series,注意其中的索引就是字典的键。3. df.iloc是通过位置的方式索引行数据。冒号在loc里是闭合的,即会选择到冒号后的数据。len(t3.index)得到的是键的长度。2.df.loc是通过标签的方式索引行数据。2.向DataFrame筛选需要的数据。1.pandas取行或者列的注意点。3.DataFrame的基础属性。
2023-09-17 18:10:56 59
原创 numpy的nan和常用方法
通过加随机种子,可以使得前后两次随机产生的数组是相同的,而如果不加,每次产生的结果将会不一样。np.count-nonzero() 即判断非0数值的个数。数组的拼接np.vstack(t1,t2)数组的拼接np.vstack(t1,t2)3.nan和任何数值计算都为nan。numpy的copy和view。numpy中的nan和inf。3.一般把nan值替换成均值。2.判断数组中nan的个数。numpy其他实用的方法。1.两个nan是不相等的。numpy生成随机数。
2023-09-16 18:46:21 282
原创 numpy
即取(0,0)(2,1) (2,3) (行,列)的数字。print(t2[2,6,8])即取第二行第六行第八行。print(t2[2: ])从第二行之后开始取。不包括第一个数字,包括第二个数字对应的行和列。1.print(t2[2])即取第二行。1.print(t2[行,列])3.取连续多列和不连续多列。第2,10,3行的所有列。5.取多个不相邻的点。
2023-09-16 17:29:55 267 1
原创 Test44&&numpy
7."w+"的作用: 首先建立一个新文件,进行写操作,随后可以从头开始读,如果指定的文件已存在,则原有的内容将全部消失。rewind函数的功能是使文件的位置指针回到文件的开头。4.深度为7的满二叉树的总结点数为2^ m-1个结点,即127, 叶子结点的个数为2^ (7-1)=64,满二叉树属于完全二叉树,在满二叉树中没有度为1的结点。3.二叉树的性质:在任意一棵二叉树中,二叉树的总结点个数是度为0的结点加上度为1的结点加上度为2的结点,度为0的结点(即叶子结点)总是比度为2的结点多一个。
2023-09-15 21:33:07 56
原创 matplotlib&&Test
4.设置中文字体,添加描述信息:fontproperties。10.设置图例位置(可以传递数字也可以传递英语):local。9.添加图例(标注每条折线图对应的信息):legend。12.绘制折线图的风格:linestyle。13.设置线条粗细:linewidth。11.设置折线图的颜色:color。7.设置网格的透明度:alpha。8.设置两个折线图出现在一个图里。prop用来接收中文字体。5.绘制网格:grid。1.选择x轴数据方向。
2023-09-13 09:12:21 68 1
原创 Test53&&Test48 && matplotlib
选项A中变量p是一个数组, 它是一个地址常量,不能放在等号的左边,所以选项A错误;选项B中,a是一个指向int[]的地址常量,p[O]是一个int型地址,所以不能将a赋值给p[0],故选项B错误;14. a表示二维数组的首地址,其基类型为具有4个整型元素的指针,而p的基类型为一个整型指针,所以其基类型不同,不能相互赋值。对于计算机本身来说,它并不能直接识别由高级语言编写的程序,只能识别和执行由0和1组成的二进制指令。程序在编译时认别到两次"/*"作为注释的开始,但未识别到'*/"作为注释的结束,
2023-09-13 00:17:33 85 1
原创 Test54 && 机器学习
全程变量是可以在子函数中对其值作改变,且它也可作为函数间的值传递。当函数或子函数中定义了与全程变量名称相同的局部变量,则全程变量将被屏蔽。扇出大表示模块的复杂度高,需要控制和协调过多的下级模块。5.C语言中,字符常量是以单引号括起来的单个字符,或为以"\"与三位八进制数值或两位十六进制数值代替单个字符。在循环队列中,队头指针和队尾指针的动态变化决定队列的长度。8.指针定义时可以为其赋初值。❌ 在带链的栈中,栈顶指针的动态变化决定栈中元素的个数。3. ✔在栈中,栈顶指针的动态变化反映了栈中元素的变化情况。
2023-09-06 18:37:24 91 1
原创 机器学习&&Test
1.如果top=bottom不等于NULL,则top=bottom同时指向唯一一个元素的数据域,此时栈中的元素个数为1;16.本题只开辟了一片连续的存储单元,只能存储一个字符串的值,字符串遇到空字符时即结束,当输入第二个字符串时将第一个字符串覆盖,最后只打印出第二个串。10.long为长整型数据,所以输出也应该为长整型,其表示方式为"%1d"。特征降维:在某些限定条件下,降低随机变量的个数,得到一组不想关主变量的过程。14.argc是指命令行中参数的个数,argv是一个指向字符的指针数组。
2023-09-04 23:16:23 130 1
原创 Test&&BI仪表盘搭建
7.凡是以'#'号开头的行,都称为"编译预处理"命令行,预处理命令组成的预处理命令行必须在一行的开头以'#"号开始,每行的未尾不得用";5.typedef语句的作用仅仅是用*标识符"来代表已存在的"类型名",并未产生新的数据类型,原有类型名依然有效,所以.使用typedef定义新类型名后,新类型名与原类型名实际上是等价的。9.fputc函数的调用形式: fputc(ch, fp) 这里ch是待输出的某个字符,它可以是一个字符常量,也允许是一个字符变量,fp是文件指针。未经赋值的auto变量值不确定。
2023-09-03 19:54:13 51
原创 Test && Tableau数据可视化
即同时把多个程序放入内存,并允许它们交替在CPU运行,多个程序可共享系统中的各种硬、软件资原。6.p=NULL等价于p='\0'或p=0,故C错误,语句p=NULL;执行后,指针p并不是指向地址为0的存储单元,而是具有一个确定的值"空“5.交运算:设有两个相同结构的关系R和S,R交S的结果是由属于R同时也属于S的元组组成的集合,即"交"运算的结果是从R和S中取出相同的元组。差运算:设有两个相同结构的关系R和S,R差S的结果是由属于R但不属于S的元组组成的集合,即"差"运算的结果是从R中去掉S中也有的元组。
2023-09-02 12:20:03 55
原创 Test39 && 数据分析excel基本操作
8.在C语言中,所有的字符都是用单引号括起来的,%s,%c,%d分别是输出字符串格式、字符格式、整型格式。A选项中是输出的字符串,B、C、D都是格式控制字符串与参数不符合。11.用户定义的函数可以没有return语句,也可以定义多个return语句,但无论函数体中有多少个return语句,return语句只可能执行一次。在最坏情况下,冒泡排序总的时间复杂度为n^2,快速排序其时间复杂度为n^2,希尔排序所需的比较次数为n^1.5,堆排序时间复杂度为nlog2n。指数形式:类似于数学中的指数形式,
2023-08-29 11:40:36 68
原创 模拟Test30 && 数据分析--excel基本操作
Test30Test301.没看懂,先码住2.限定唯一一条元组3.前序序列和中序序列相同4.结构体变量成员的引用5.scanf()6. “\\\” 双引号内使用了两个转义符,即后一个双引号也作为字符串的内容了,故此字符串中还缺少用于表示字符串结束的引号7.fputc函数的调用形式: fputc(ch, fp) 这里ch是待输出的某个字符,它可以是一个字符常量,也允许是一个字符变量8.本题考的是函数的递归调用。
2023-08-27 19:10:23 132 1
原创 python(113-121)
模块模块的创建1.创建模块其实就是创建一个python文件2.引入外部模块(1) import 模块名(模块名就是python文件的名字,但是不要py)引入同一个模块多次,但是实例只会创建一个(2) import 模块名 as 模块别名模块的使用1. import 模块名模块名.变量名from 模块名import 变量from 模块名 import 变量 as 别名2.-变量3.编写测试代码。
2023-08-24 20:31:21 63 1
原创 python(98-100)(105-112)
1.此时做类型检查 if isinstance(obj,A),所以此时其他类型的对象都无法使用该函数,只适用于一种类型的对象,违反了多态。如果在子类中存在和父类重名的方法,则通过子类实例去调用方法时,会调用子类的方法而不是父类的方法,这个则被称之为方法的重写。3.issubclass(类1,类2),用于检查类一是否为类2的子类,是则返回true。1.int() float() bool() str() list()等这些都是类。2.类属性,直接在类中定义的属性是类属性。方法的重写(覆盖,override)
2023-08-24 16:21:21 50 1
原创 python(122-130)
使用open()打开文件时必须要指定打开文件所要做的操作,如果不指定操作类型,则默认是读取文件,而读取文件时是不能向文件中写入的。1.read()可以接收一个size作为参数,用来指定要读取的字符的数量。1.read()用来读取文件中的内容,会将内容保存为一个字符串返回。1.read()用来读取文件中的内容,会将内容保存为一个字符串返回。a追加内容,如果文件不存在则创建,存在则追加。x用于新建文件,文件不存在则创建,存在则报错。1.os.listdir()获取目录的目录结构。文件seek()和tell()
2023-08-22 23:59:40 74 1
原创 test19 & python( 84-91)
T19笔记T19笔记(1)运行中的进程可以处于以下三种状态之一:①运行状态:是指进程已获得CPU,并且在CPU上执行的状态。②就绪状态:是指-一个进程已经具备运行条件,但由于没能获得CPU而不能运行时所处的状态。③等待状态:也称为阻塞状态或封锁状态。是指进程因等待某种事件发生而暂时不能运行的状态。(2)处理器的速度是指处理器核心工作的速率,它常用系统的时钟速率来表述。(3)进程调度又称为低级调度。(4)再将4.5int强制类型转换为整型4,不是5。
2023-08-21 18:42:16 59 1
原创 python(77-83)
函数(function)1.函数也是对象,用于保存可执行 的代码,并进行多次的调用2.定义一个函数 def 函数名():代码块3.函数中保存的代码不会立即执行,需要调用函数代码才能执行4.调用函数直接 函数名()5.函数名是函数对象,函数名()是调用函数print是函数对象,print()调用函数1.函数名必须要符合标识符的命名2.定义函数时可以在()中定义数量不等的形参,逗号隔开实参的传递方式。
2023-08-20 22:33:28 42 1
原创 python(63-76)
1.操作系统主要包括以下几个方面的功能: ①进程管理 ②存储管理 ③设备管理 ④文件管理2.常见的指令寻址有顺序寻址和跳跃寻址。3.寻找指令中表示的操作数或怎样计算出操作数的地址称为数据寻址。常见的数据存执有隐含寻址、立即(数)寻址、直接寻址、间接寻址、寄存器寻址etc4.计算机操作系统有四个特征:并发、共享、异步、虚拟。5.正整数的原码、反码和补码是一样的。6.在二进制中,通常负数采用补码的形式表示。原码转换为反码:符号位不变,数值位分别'按位取反'
2023-08-19 20:41:09 120
原创 python(33-43)(58-62)
卷17笔记#卷17笔记(1)在函数声明中也可以不写形参名,而只写形参的类型,但要保证与函数首部写法上的一致,即函数类型、函数名、参数个数、参数类型和参数顺序相同。字符数组可用指针来表示。(2)ps +4相当于先从指针变量ps指向的地址中取出相应数据" a"后,对此数据加4,a的ASCII码为32,32+4=36,对应于字符e。(3)还没完全搞懂选项A: * (*w+3)=* (* (w+0)+3) =* (w[O]+3)=w[0][3],符合数组定义的范围可以正确表示数据元素。
2023-08-18 20:49:19 84 1
原创 python(20-33)
3.%s任意字符,%f浮点数占位符,%d整数占位符(%3.5表示字符串长度限制在3到5之间,小 数用%d直接省略小数点后面的数字)float和int的区别是把对象转换成浮点数,str即把对象转换成字符串。1.相同的引号不能嵌套,但是可以用\作为转义字符(\‘即’ \“即”)(6)类型转换(不是改变原有对象,而是把对象的值转换为新的对象)(4)格式化字符串(在字符串前面加一个f格式化字符串)不同字符串相连接:1.print(‘a=’,a)1.数值:整数,浮点数(小数字),复数。
2023-08-17 19:15:14 129 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人