- 博客(179)
- 资源 (4)
- 问答 (11)
- 收藏
- 关注
原创 COMP 9417 T2_2021 Lesson 8
贝叶斯: numeric attributes决策树优点某种形式的树可能仍然是最流行的data mining易于理解易于实施易于使用可以分类可以回归,可用于大数据的处理。例子例子在N中需要多少个M来分类,N个特征,thresold function判断三个var里面T两个树真值表的重新表示,将有2^d叶子。通过考虑具有相同Y值的一行或多行之间的共同点,可以实现更紧凑的树但有些布尔函数可能无法实现紧凑树(例如奇偶函数和多数函数)一般来说,尽管原则上可以表
2021-06-27 11:31:56 598
原创 COMP 9417 T2_2021 Lesson 7
Pg 51-67朴素贝叶斯这是一种基于贝叶斯定理的分类技术,假设预测变量之间具有独立性。 简而言之,朴素贝叶斯分类器假定类中某个特定功能的存在与任何其他功能的存在无关。例如,如果水果是红色,圆形且直径约3英寸,则可以将其视为苹果。即使这些功能相互依赖或取决于其他功能的存在。所有这些属性都独立地导致这种水果是苹果的可能性,这就是为什么它被称为“朴素”的原因。例子优点:可以轻松快速地预测测试数据集的类别。在多类别预测中也表现出色。如果保持独立性假设,那么与其他模型(例如逻辑回归)相比,朴素贝叶
2021-06-27 07:24:19 385
原创 COMP 9417 T2_2021 Lesson 6
Pg1-54逻辑回归和感知机的区别主要是多了一个求概率,逻辑回归的损失函数由最大似然推导而来,使预测概率分布与真实概率分布接近。感知机的损失函数可能有多种方法,可能有多层感知机,但他们本质的思想都是使预测的结果与真实结果误差更小,是函数拟合,是去求得分类超平面。考虑这样一个场景:我们需要对癌症分类。如果我们使用线性回归来解决这个问题,就需要设置一个阈值,根据这个阈值可以进行分类。假设实际类别为恶性,但是预测值为0.4,阈值为0.5,则该数据点将被归类为非恶性,这将导致实时的严重后果。逻辑回归模型:
2021-06-20 13:05:20 440
原创 COMP 9417 T2_2021 Lesson5
Pg: 45-End由于下面要学KNN,素以教授先介绍了各种距离的测算方法并且之间的比较。k最近邻(KNN)算法是有监督的机器学习算法,可用于解决***分类和回归***问题。算法的具体方式后面会讲(按照老师PPT顺序来)。课中说了下面的距离公式不用会推导,但是要理解:Minkowski distance,曼哈顿距离,欧氏距离Minkowski distance其实不是描述两个点之间的距离,而是表示Distance metric。 两个n维变量a(x11,x12,…,x1n)与b(x21,
2021-06-15 12:27:34 376
原创 COMP 9417 T2_2021 Lesson 4
PG 25-45Inductive reasoning 多个前提(大多数时候都被认为是真的或被认为是真的)被组合起来以得到一个特定的结论。换言之,它指的是从具体的观察中得出概括。自下而上推理和因果推理也指归纳推理。Deductive arguments:侧重于从普遍现实推出特定的事件Inductive/Deductive不错的例子泛化能力:举个例子,高中生每天各种做题,五年高考三年模拟一遍遍的刷,为的什么,当然是想高考能有个好成绩。高考试题一般是新题,谁也没做过,平时的刷题就是为了掌握试题的规律,能
2021-06-13 10:01:53 361
原创 COMP 9417 T2_2021 Lesson 3
判断模型是否合适:如果分割完后正好是一半正的一半副的,就表示是个很好的模型。如果一个数据点为离群值,同时也意味着它对应的残差具有较大的方差,因此数据中的离群值数量较多的话,残差一般也会出现明显的异方差性。残差应显示近似对称的钟形频率分布,平均值为0一些非线性关系可以通过转换来变成线性模型。作业1a。如果模型过于复杂,我们可以考虑简化模型。通过子集来估计整体。会产生多个模型,需要做选择。正则将不重要的系数归零或者接近0。降维。对于第一种方法:在得到很多子特征集之后。都是greedy的
2021-06-08 16:06:05 599 1
原创 COMP 9417 T2_2021 Lesson 2
内容56-88PDF通过55页的图我们知道一元线性回归就是需要找到一条线性的直线来尽量的拟合数据点。那么b就是表示这条线的斜率。如果X是随便产生的数,那么我们就可以说b的变化是X变化导致Y的变化。如果b是0,那么X,Y没关系。如果b是实验数据不是随机产生的,那么Y的变化不仅仅是X的变化,还有导致X变化的原因。在线性回归中我们假设:Linearity 线性应变量和每个自变量都是线性关系。Indpendence 独立性对于所有的观测值,它们的误差项相互之间是独立的。Normality 正态性
2021-06-08 12:07:56 314
原创 COMP 9417 T2_2021 Lesson 1
Tutorial 链接:Lesson 1 提到的LR背景知识_OmarPPT Pg-1-56首先一些历史定义的基本了解:Trying to get programs to work in a reasonable way to predict stu.–R. Kohn (2015)一些定义:统计:通常是人类的数学模型。数据挖掘:通常是人类“洞察”的模型。监督学习:有监督的机器学习:大多数实际的机器学习都使用有监督的学习。 在监督学习中,具有输入变量(x)和输出变量(Y),并使用一种算法
2021-06-01 13:22:48 656 2
转载 Efficientnet归纳
ResNet ----> EfficientNetResNet: ResBlock是构成ResNet的基础模块,它在深度学习的发展中扮演了极为重要的角色。许多之后的研究和文章都将ResBlock的研究动机归于“解决梯度消失”这一问题。Res18,Res34,Res50,Res101,Res152;,网络之间的不同主要在于中间卷积部分的block参数和个数存在差异. resnet18和其他res系列网络的差异主要在于layer1~layer4。Inception: 大部分流行 CNN 仅仅是把卷
2021-05-19 16:30:45 1474 2
原创 玻尔兹曼机
我将尝试介绍有关受限玻尔兹曼机器的直觉及其工作方式。什么是玻尔兹曼机?玻尔兹曼机器是能够学习内部表示的随机生成的神经网络,能够表示和(给定足够的时间)解决困难的组合问题。玻尔兹曼机器如何工作?玻尔兹曼机器如下所示:Boltzmann机器是仅有两种类型的节点(隐藏节点和可见节点)的非确定性(或随机)生成型深度学习模型。没有输出节点!这似乎很奇怪,但这就是赋予他们这种不确定性的原因。它们没有典型的1或0类型输出,可使用随机梯度下降来学习和优化模式以进行输出。他们没有这种能力学习模式,这就是他们如此
2020-06-18 09:44:32 3082 1
转载 贝叶斯,深度学习问题复习
贝叶斯朴素贝叶斯分类器原理以及公式,出现估计概率值为 0 怎么处理(拉普拉斯平滑),缺点;解释贝叶斯公式和朴素贝叶斯分类。https://editor.csdn.net/md/?articleId=106044348贝叶斯分类,这是一类分类方法,主要代表是朴素贝叶斯,朴素贝叶斯的原理,重点在假设各个属性类条件独立。然后能根据贝叶斯公式具体推导。考察给你一个问题,如何利用朴素贝叶斯分类去分类,比如:给你一个人的特征,判断是男是女,比如身高,体重,头发长度等特征的的数据,那么你要能推到这个过程。给出
2020-06-18 09:44:16 1047
原创 深度置信网络 Deep belief network
随着机器学习的发展和深度学习的到来,引入了一些工具和图形表示来关联巨大的数据块。深度信仰网络是本质上具有生成性的图形表示,即,它会生成可为当前案例生成的所有可能值。 它是通过机器学习和神经网络将概率和统计融合在一起的。 深度信任网络由具有值的多层组成,其中各层之间存在关系,但值之间没有关系。 主要目的是帮助系统将数据分类为不同的类别。深度信念神经网络如何演变?第一代神经网络使用的感知器通过考虑“重量”或预饲喂物的特性来识别特定物体或其他物体。但是,感知器只能在基本级别上有效,而对先进技术则无济于事。为
2020-06-18 09:43:49 3569
原创 Affine Functions
仿射函数一维仿射功能:仿射函数是由线性函数+常数组成的函数,其图形是直线。一维仿射函数的一般公式为:y = Ax + c。仿射函数演示了一个仿射变换,它等效于线性变换后再进行平移。在仿射变换中,保留了图的某些属性。这些包括:如果三个点都属于同一条线,则在仿射变换下,这三个点仍将属于同一条线,中间点仍将在中间。平行线保持平行。并发行保持并发。给定线段的长度之比保持恒定。两个三角形的面积比保持不变。椭圆仍然是椭圆,抛物线和双曲线也是如此。二维仿射功能:在2D中,仿射函数的方程式为f(x,
2020-06-18 09:43:36 2029
原创 Perceptron, BP network
人工神经网络是一种受生物神经网络启发的计算模型,该模型在人脑中处理信息。 人工神经网络在语音识别,计算机视觉和文本处理领域取得了一系列突破,令机器学习研究和行业兴奋不已。 在此博客文章中,我们将尝试了解一种称为多层感知器的特定人工神经网络。单个神经元:神经网络中计算的基本单位是神经元,通常称为“节点”或“单位”。 该节点从其他节点接收输入或从外部源接收输入,然后计算输出。 每个输入都辅以“权重”(w),其权重取决于其他输入的相对重要性。 节点将函数f(定义如下)应用于加权输入总和,如图1所示:该网络接
2020-06-18 09:43:14 343
原创 深度神经网络批量归一化的简要介绍 batch normalization
为什么要使用批处理规范化?我们通过调整和缩放激活来标准化输入层。例如,当我们具有从0到1以及从1到1000的特征时,我们应该将它们标准化以加快学习速度。如果输入层从中受益,为什么不对隐藏层中的值也做同样的事情,这些值一直在变化,并且训练速度提高了10倍甚至更多倍。批量归一化减少了隐藏单位值的偏移量(协方差偏移)。为解释协方差变化,让我们深入了解猫检测。我们仅在黑猫的图像上训练数据。因此,如果我们现在尝试将此网络应用于有色猫的数据,那是显而易见的;我们做得不好。训练集和预测集都是猫的图像,但略有不同。换句
2020-06-18 09:42:52 554
转载 K-means问题小记
K-meansk-means 聚类的原理以及缺点及对应的改进;kmeans 算法的优缺点。。。。k均值聚类算法尝试将给定的匿名数据集(一个不包含有关类标识的信息的集合)拆分为固定数量(k)的簇。最初,选择k个所谓的质心。质心是群集中心的数据点(虚部或实部)。每个质心都是给定输入数据集中的现有数据点,是随机选取的,因此所有质心都是唯一的(即,对于所有质心ci和cj,ci≠cj)。这些质心用于训练kNN分类器。所得分类器用于对数据进行分类(使用k = 1),从而产生初始的随机聚类集。此后,将每个质心设置为
2020-06-14 09:05:38 901
原创 样本采样
当您对一组人进行研究时,几乎不可能从该组中的每个人那里收集数据。 而是选择一个样本。 样本是将实际参与研究的一组个人。为了从结果中得出有效的结论,您必须仔细决定如何选择代表整个群体的样本。 采样方法有两种:概率抽样涉及随机选择,使您可以对整个组进行统计推断。非概率采样涉及基于便利性或其他条件的非随机选择,使您可以轻松收集初始数据。人口与样本首先,您需要了解总体与样本之间的差异,并确定研究的目标人群。总体是您要得出结论的整个群体。该样本是您要从中收集数据的特定人群。可以根据地理位置,年龄,收入
2020-06-14 09:05:10 1734
原创 如何知道特征的重要性
我们所有人可能都面临过这样的问题,即从一组数据中识别相关特征,并删除不相关或次要的特征不会对我们的目标变量产生太大的影响,从而为模型提供更好的准确性。特征选择是机器学习中的核心概念之一,它极大地影响模型的性能。用于训练机器学习模型的数据功能对可达到的性能有很大的影响。不相关或部分相关的特征可能会对模型性能产生负面影响。特征选择和数据清理应该是模型设计的第一步,也是最重要的一步。特征选择是您自动或手动选择那些对您感兴趣的预测变量或输出贡献最大的特征的过程。数据中具有不相关的特征会降低模型的准确性,并
2020-06-14 09:04:53 3399
转载 树模型的问题
树模型rf , gbdt 的区别; gbdt , xgboost 的区别(烂大街的问题最好从底层原理去分析回答)像随机森林一样,梯度增强是一组决策树。两个主要区别是:树的构建方式:随机森林独立地构建每棵树,而梯度增强则一次构建一棵树。这种加性模型(合奏)以阶段性的方式工作,引入了弱学习者,以改善现有弱学习者的缺点。合并结果:随机森林在流程结束时合并结果(通过平均或“多数规则”),而梯度增强则沿途合并结果。如果您仔细调整参数,则梯度增强会比随机森林产生更好的性能。但是,如果您有很多噪声,则梯度增强可
2020-06-12 05:42:54 1083
原创 Gini Index vs Information Entropy
背景:决策树根据其目标变量的“纯度”递归拆分要素。 整个算法旨在优化每个拆分,以最大程度地提高纯度……什么是纯度? 可以将纯度视为分组的均质性。 您将在下面的示例中看到我的意思:如果我们有4个红色口香糖和0个蓝色口香糖,则基于颜色作为目标,这4个组是100%纯的。如果我们有2个红色和2个蓝色,则该组是100%不纯的。如果我们有3个红色和1个蓝色,那么如果我们分别使用Gini或Entropy,则该组的纯度为75%或81%。为什么这么重要? 根据使用哪种杂质测量,树分类结果可能会有所不同。 这可能会对
2020-06-12 05:42:34 819
原创 distribute system 5
Names are used to refer to a variety of resources such as– Computers– Services– Remote objects– Files– UsersWhat is a name used for?– to identify on a particular resource out of many (e.g., URL: UniformResource Locator)– to share a resource with o
2020-06-12 05:42:11 159
转载 LR逻辑回归复习
LR推导(伯努利过程,极大似然,损失函数,梯度下降)有没有最优解?https://editor.csdn.net/md/?articleId=105922852LR可以用核么?可以怎么用?l1和l2正则项是啥?lr加l1还是l2好?加哪个可以用核(加l2正则项,和svm类似,加l2正则项可以用核方便处理)https://www.youtube.com/watch?v=AbaIkcQUQuoLR可以用来处理非线性问题么?(还是lr啊 只不过是加了核的lr 这里加核是显式地把特征映射到高维 然后
2020-06-08 08:46:44 326
原创 高斯,拉普拉斯分布
一般来说我们可以使用正则化来避免过度拟合。但是实际上什么是正则化,什么是通用技术,以及它们有何不同?“正规化是我们对学习算法所做的任何修改,旨在减少其泛化误差,而不是其训练误差。”换句话说:通过防止算法过度拟合训练数据集,可以将正则化用于训练对看不见的数据更好地泛化的模型。那么,如何修改逻辑回归算法以减少泛化误差呢?我发现的常见方法是高斯,拉普拉斯,L1和L2。高斯还是L2,拉普拉斯还是L1?这有什么不同吗?可以证明L2和高斯或L1和拉普拉斯正则化对算法具有同等影响。获得正则化效果的方法有两种.
2020-06-08 08:46:08 5448
原创 似然,可能性,概率这三个区别 likelihood, possibility and probability
A probability distribution is a statistical model that shows the possible outcomes of a particular event or course of action as well as the statistical likelihood of each event. For example, a company might have a probability distribution for the change in
2020-06-08 08:45:53 4483
原创 Distribute System Network Part
Physical layer– send bits (0 and 1)Data link layer– groups bits into frames– assigns sequence numbers to frames and adds special bits at the beginningand end– adds a checksum (the result of some operation on the frame content)– If receiver disagree
2020-06-08 08:45:23 223
原创 Distribute System2-12
System Architecture:Centralized architecture, Decentralized architecture, hybrid architectureLogical organization of components in distributed systems:– Component: A modular unit with well-defined interfaces that is replaceable– Connector: a mechanism
2020-06-07 10:05:11 297
原创 Proximal Gradient Descent 近梯度下降
https://www.youtube.com/watch?v=sy4pRJ3g530看到油管这个视频讲的很清楚,在这里记下
2020-06-07 10:04:35 224
原创 Distributed Systems
Message loss– Networks are in general unreliable– Messages can be lost (never been delivered even if sent)– Examples:– A server receives too many requests simultaneously so it cannot treat all– A router drops the message because its queue is fullTCP
2020-06-07 10:04:20 143
转载 L1和L2 复习问题
LRLR推导(伯努利过程,极大似然,损失函数,梯度下降)有没有最优解?LR可以用核么?可以怎么用?l1和l2正则项是啥?lr加l1还是l2好?加哪个可以用核(加l2正则项,和svm类似,加l2正则项可以用核方便处理)LR可以用来处理非线性问题么?(还是lr啊 只不过是加了核的lr 这里加核是显式地把特征映射到高维 然后再做lr)怎么做?可以像SVM那样么?为什么?为什么LR需要归一化或者取对数,为什么LR把特征离散化后效果更好,为什么把特征组合之后还能提升,反正这些基本都是增强了特征的表达能力,或者
2020-06-07 10:04:00 1021
原创 Distribute System 1-12-Introduciton
What is a Distributed System?“A collection of independent computers that appears to its users as a single coherent system.”Cluster:CSIRO Bracewell 114 PowerEdge C4130 servers with Nvidia Tesla P100 GPUs, Nvlink, dual Intel Xeon processors, and 100Gbps E
2020-06-05 06:05:34 192
翻译 SVM复习代码
import numpy as npfrom sklearn import preprocessing, cross_validation, neighbors, svmimport pandas as pddf = pd.read_csv('breast-cancer-wisconsin.data.txt')df.replace('?',-99999, inplace=True)df.drop(['id'], 1, inplace=True)X = np.array(df.drop(['c
2020-06-05 06:05:17 116
转载 SVM复习,以及一些问题
SVM:简单介绍SVM(详细原理):从分类平面,到求两类间的最大间隔,到转化为求间隔分之一,等优化问题,然后就是优化问题的解决办法,首先是用拉格拉日乘子把约束优化转化为无约束优化,对各个变量求导令其为零,得到的式子带入拉格朗日式子从而转化为对偶问题, 最后再利用SMO(序列最小优化)来解决这个对偶问题。svm里面的c有啥用SVM的推导(推导过程参见之前的文章)解释原问题和对偶问题,SVM原问题和对偶问题的关系使用Lagrange乘数的SVM优化这源于对偶原理,该对偶原理指出优化问题可以看作是原始问
2020-06-05 06:04:54 829
原创 SVM复习-多分类问题的三种方法
Binary Classifiers for Multi-Class Classification分类是一个预测性建模问题,涉及将类别标签分配给示例。二进制分类是将示例完全分配给两个类之一的任务。 多类分类是指将示例完全分配给两个以上类之一的任务。二进制分类:具有两个类别的分类任务。多类别分类:具有两个以上类别的分类任务。一些算法是针对二进制分类问题而设计的。 示例包括:逻辑回归感知器支持向量机因此,它们不能用于多类分类任务,至少不能直接用于。相反,可以使用启发式方法将多类分类问题拆.
2020-06-05 06:04:14 2898
原创 multi head attention
之前这一块不太明白,看了几篇文章,来专门记下我们需要注意的一个关键点是每个attention头都影响着整个输入句子(或者对于注意层堆叠中较高的那些句子,整个句子的表示形式)。 将所有head的输出连接起来,并与另一个矩阵相乘(该矩阵是共同学习的),该矩阵将维数减小到好像只是一个attention head一样-这样的减少可确保关注输出的前馈层始终获得向量 大小相同,而不管其前面attention头的数量如何。假设我们有512的向量(例如,隐藏层输出)。 4头attention机制的作用是将向量分成4个块
2020-06-02 07:46:59 564
原创 为什么transformer比RNN和LSTM更好?
transofrmer在机器翻译的上下文中引入了transofrmer,目的是避免递归,以便允许并行计算(减少训练时间),并减少由于长期依赖性而导致的性能下降。主要特点是:非顺序的:句子是整体处理的,而不是逐字处理。self attention:这是新引入的“单位”,用于计算句子中单词之间的相似性得分。位置嵌入:引入了另一种替代复发的创新。这个想法是使用固定或学习的权重,该权重对与句子中标记的特定位置有关的信息进行编码。第一点是transofrmer不受长期依赖问题困扰的主要原因。原始transo
2020-06-02 07:46:40 18356 1
原创 GRU的原理,以及LSTM比较
门控循环单元(GRU)是较流行的长期短期记忆(LSTM)网络的年轻兄弟,也是一种循环神经网络(RNN)。 就像它的兄弟一样,GRU能够有效保留顺序数据中的长期依赖性。 此外,他们还可以解决困扰普通RNN的“短期记忆”问题。门控循环单元(GRU)是RNN体系结构的一种变体,它使用门控机制来控制和管理神经网络中细胞之间的信息流。 GRUs仅在2014年由Cho等人引入。 并且可以认为是相对较新的体系结构,尤其是与Sepp Hochreiter和JürgenSchmidhuber在1997年提出的LSTM相比。
2020-06-02 07:46:26 3148 2
原创 机器学习的transformer
新的深度学习模型被引入的速度越来越快,有时很难及时的了解所有新技术。 也就是说,已经证明一种特定的神经网络模型对于常见的自然语言处理任务特别有效。该模型称为Transformer,我们将分为两个部分详细介绍它第1部分:序列到序列学习和Attention机制序列到序列(Seq2Seq)是一个神经网络,它将给定的元素序列(例如句子中的单词序列)转换为另一个序列。Seq2Seq模型特别擅长翻译,将一种语言的单词序列转换为另一种语言的不同单词序列。这种类型的模型的一个流行选择是基于长期短期记忆(LSTM)的
2020-06-02 07:46:07 3366
原创 seq2seq 解释
什么是sequence学习?序列到序列学习(Seq2Seq)是关于将模型从一个域(例如英语的句子)转换为另一域(例如将相同句子翻译为法语的序列)的训练模型。它可用于机器翻译或免费问题解答(给定自然语言问题后生成自然语言答案)-通常,它可在需要生成文本的任何时间使用。有多种处理此任务的方法,可以使用RNN或使用一维卷积网络。 在这里,我们将重点介绍RNN。普通情况:输入和输出序列的长度相同当输入序列和输出序列的长度相同时,您可以简单地使用Keras LSTM或GRU层(或其堆栈)来实现此类模型。 在
2020-06-02 07:45:48 380
原创 Apache Hive与Spark。
每年,市场上似乎有越来越多的分布式系统来管理数据量,种类和速度。 在这些系统中,Hadoop和Spark是两个继续获得最多关注的系统。什么是Hadoop?Hadoop于2006年作为Yahoo项目开始,后来成为顶级Apache开放源代码项目。这是一种分布式处理的通用形式,它包含多个组件:Hadoop分布式文件系统(HDFS),以Hadoop本地格式存储文件并在集群中并行化它们; YARN,用于协调应用程序运行时的时间表;和MapReduce,该算法实际上是并行处理数据。 Hadoop是用Java构建的,
2020-06-02 07:45:17 248
原创 NLP GPT算法笔记
从这个意义上讲,我们可以说GPT-2本质上是键盘应用程序的下一个单词预测功能,但是它比您的手机具有更大,更复杂的功能。 GPT-2在称为WebText的庞大40GB数据集上进行了训练,作为研究工作的一部分,OpenAI研究人员从互联网上进行了爬网。 为了比较存储空间,我使用的键盘应用程序SwiftKey占用了78MB的空间。 经过训练的GPT-2的最小变体,占用500MB的存储空间来存储其所有参数。 最大的GPT-2变体大小是其13倍,因此可能会占用6.5 GB以上的存储空间。OPENAI GPT遵循E
2020-05-28 07:35:55 2368
matlab实现比较GABP和BP算法识别相同英文字符的的效果
2020-05-16
请问大神这种多边形面积怎么求呀python?
2021-03-04
Network address 定义的区别?
2021-02-07
求文matlab这个要测试要怎么写?
2021-01-27
怎么将HTML网页作为输入并将其转换为webOQL类型的超树。
2020-10-16
求问下面这个ER图是3NF么
2020-09-26
求问programming language下面这个第二问要怎么写呀大神们
2020-09-13
当sub net 超出0-255的范围会怎么样
2020-06-08
求问这道题算到subnet4 的时候超过了255要怎么处理呀
2020-06-08
求问下面这个问题的后半部分啥意思呀,要怎么回答呀,前半部分我知道,后面那个要怎么回答呀
2020-06-06
C++问题,没有啥思路,求大佬帮忙
2020-05-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人