数据科学家之路
文章平均质量分 62
给大家分享今天的激动人心的技术与思考。
Elong_Hu
Live to Make A Difference.
展开
-
机器学习与统计学的区别与联系
具体的链接Lynkage CMap原创 2022-03-01 20:18:44 · 863 阅读 · 0 评论 -
《从零开始:机器学习的数学原理和算法实践》关于微积分部分的启发
目录飞矢不动的破解微积分的目的理解导数的两个角度从瞬时速度来理解导数从近似运动来理解导数导数的直观理解直观理解泰勒公式的来龙去脉飞矢不动的破解“每一瞬间箭都是静止的”这句话本身就有问题。“每一瞬间”就是每一个时刻,每一个时刻箭当然会处在某个位置上,但是“静止”是一个跟“时间段”有关联的概念,不存在某个时刻是“静止”还是“运动”的说法。me:现在看来就是混淆了点的概念与区间的概念。也就是必须经历一段时间才能够知道是静止还是运动。微积分的目的近似,近似!第一种情况,用常数项近似代替某个函数在某点附近原创 2022-02-19 17:49:02 · 1172 阅读 · 0 评论 -
最小二乘法的两个观点
两个观点看最小二乘法写在前面统计学角度的最优化问题线性代数角度的近似解写在前面之前在学习《机器学习基石》的线性回归章节的时候,林老师在最后的部分给了最小二乘的另一种观点当时很不理解。之后在《线性代数及其应用》的目录上看到最小二乘法的内容但是由于那时还有其他的事情要做,所以就暂时没有看。今天在《从零开始:机器学习的数学原理和算法实践》读到对应的内容这一次是从线性代数的近似解角度切入的。统计学角度的最优化问题从统计学角度来看线性回归无非就是找到一条直线去尽可能的拟合图中的散点。拟合的标准就是使得直线到原创 2022-02-16 22:06:01 · 673 阅读 · 0 评论 -
《从0开始学大数据》的启示
《从0开始学大数据》学习后感方法论与哲学了解来龙去脉形成思维体系,为什么是A而不是B?大数据发展历史分布式计算的核心思想从RAID到HDFS(存储)计算框架与计算模型(MR)解耦的资源调度框架从Hive-MR看novel从MR-Spark看产品思维Spark到底为什么快各个组件的在生态中的位置Lambda架构与大数据平台大数据与物联网方法论与哲学了解来龙去脉形成思维体系,为什么是A而不是B?当我写这篇文章的时候,心情比较急躁,也可能是焦虑。我同时想到了这句话回想自己学习技术的时候,更多地是急躁的专原创 2022-02-14 19:43:37 · 1299 阅读 · 0 评论 -
机器学习中最优化算法的脉络
主要分为是否约束,与搜索方向两个维度。原创 2022-01-26 17:59:54 · 1162 阅读 · 1 评论 -
众创资源分享平台的设计与实现
写在前面:把前几年的毕业设计论文放出来,主要实现的是基于JavaEE的前后端的,带有搜索引擎的与SparkML推荐算法的一个网站的设计。没有什么创新,只是一些技术的整合。摘 要:本系统是一个功能较为完备的资源分享平台,实现了资源分享、资源搜索、资源推荐等功能。其中网站的主体通过经典的JavaEE框架构建,通过Lucene技术与Solr技术提供资源搜索服务,并且实现了以机器学习ALS算法为核心的资源推荐系统,使得用户可以更为方便地找到想要的资源。关键词:资源分享; 全文...原创 2022-01-24 13:39:30 · 1728 阅读 · 0 评论 -
记一次d2l_softmax回归中的错误
错误代码与现象分析def train_epoch_ch3(net, train_iter, loss, updater): #@save """训练模型一个迭代周期""" # 将模型设置为训练模式 if isinstance(net, torch.nn.Module): net.train() # 训练损失总和、训练准确度总和、样本数 metric = Accumulator(3) for X, y in train_iter:原创 2022-01-23 17:44:14 · 1830 阅读 · 0 评论 -
PCA不过如此
PCA的目标有利于简化计算,降低模型复杂度,便于数据可视化。核心思想就是抓住主要矛盾一个简单的例子:现在要通过照片来识别一个人。整个拍照的过程就是一个将3维的人降维到2维。我们通过照片就能够识别照片中的人。这就是PCA要做的事情。在举一个例子就是在平常的学习中物理与数学科目的相关性很强,如果我们知道了一个同学的数学成绩很好那么大概率就能知道该同学的物理学的不错。在这里我们就能够使用数学(一个维度)来评估该同学的理科素质(多个维度)。同时降维之后尽可能留下有用的维度,也就是留下的维度尽可能的独原创 2022-01-21 22:57:02 · 1058 阅读 · 0 评论 -
d2l自动微分练习
课后题自动微分自动微分为什么计算二阶导数比一阶导数的开销要更大?简单来说就是会造成梯度维数的增大,标量对向量的求导是一个向量,在此基础上再对向量求导就会变成一个矩阵,进一步的会变成张量。在运行反向传播函数之后,立即再次运行它,看看会发生什么。运行时异常,之前的结果已经被释放,而且给出了提示,说要使用retain_graph=True就能够保证结果不被释放。RuntimeError: Trying to backward through the graph a second time, but原创 2022-01-19 11:59:05 · 2751 阅读 · 0 评论 -
关于生成式模型与判别式模型
判别式模型是假设Model规定lose function然后使用algorithm 使得lose function 最小化就会得到Model的参数。也就是直接从数据集中得到决策边界。生成式模型是使用已有的数据集得到特征的分布。一个Label下的分布,比如已知鳕鱼的条件下它的长与宽的分布。(这一步也就有了探究是怎样的特征分布造就了鳕鱼。探究物质生成的原因。)当新的物体进来之后使用Bayes公式将特征参数带入分布中(已知特征的情况下是XX鱼的概率),得到哪一个Label(鱼.原创 2022-01-18 22:36:58 · 681 阅读 · 0 评论 -
《你学的数学可能是假的》的触动笔记
数学的精神:不在于玩弄多么高大上的概念,而是一种创造性的解决方法。一些生活中的数学技巧:数学作为一种工具需要记住一些二级公式。被误解的天才:船长问题:还没有审题就开始计算。被误解的天才:不受污染的孩子进行的独立思考往往是新东西出现的地方。合乎逻辑但是与传统的东西背道而驰可能就是一种创新。数学的学习:重要的不是结论是什么而是这个中间的过程。这个过程正是训练思维的过程。为什么懂得那么多道理却过不好这一生,就是产生了获取了信息就以为自己做到了的幻觉。横向思维:...原创 2021-03-08 20:30:56 · 286 阅读 · 2 评论 -
Flume基本原理
Flume入门综述Flume是一个日志采集工具。具体来说它是一个分布式的能够从不同来源收集、聚集、日志信息用以集中管理的系统。他的核心思想就是从不同的数据源(比如说远程的http请求,监听远程的日志文件,当然也有可能是远程的程序发出的序列化数据)获得数据然后放入数据中转站,然后不同的数据中转站之间可以进行相互连接构成一个中转站网,最后我们可以将一根管子通到中转站上的任何一个节点来接收数据。我们...原创 2018-11-23 21:27:41 · 396 阅读 · 0 评论 -
Hive基本原理(修订版)
Hive的本质是一个翻译器。它的任务就是将一种类SQL(HQL)的语句翻译成Mapreduce任务,通过执行Mapreduce任务来对海量数据仓库进行处理。从表面上来看它就是一个数据仓库能够查询与分析数据。它与Hadoop的关系如下图所示:与传统数据库相比Hive的主要特点为:①分析离线存储数据,不具有实时性②不支持事务,由于是历史数据所以没有必要去增删改。③不支持修改,由于是...原创 2018-11-22 22:17:36 · 343 阅读 · 0 评论 -
Hadoop之Yarn的基本原理
Yarn的基本架构与运行概述Yarn(Yet Another Resource Negotiator)资源协调者,它是Hadoop生态圈中的三大组件之一,主要负责资源的调度。它与其他的两个组件相互独立也就是Yarn可以运行在其他的文件系统之上,其他的计算框架也可以运行在Yarn上面。下图为它在生态圈中的地位。Yarn的架构Yarn主要是由ResourceManager,Node...原创 2018-11-19 17:23:41 · 377 阅读 · 0 评论 -
Hadoop之MapReduce工作原理
Map阶段①输入分片(inputsplit),这个时候也就是输入数据的时候,这时会进行会通过内部计算对数据进行逻辑上的分片。默认情况下这里的分片与HDFS中文件的分块是一致的。每一个逻辑上的分片也就对应着一个mapper任务。②Mapper将切片的数据输入到map函数中进行处理。③Buffer函数将结果输出首先放入buffer(缓冲区)中从而为后面的操作(也就是写入硬盘)做准备。这...原创 2018-11-15 19:12:02 · 507 阅读 · 0 评论 -
Hadoop之HDFS基本原理
Hadoop之HDFSHDFS简介HDFS是Hadoop的三大组件之一,用马士兵老师的话来说他就是一块分余展(分布式,冗余数据,可扩展)的大硬盘。它以数据节点的方式来存储数据,从逻辑上来说他分为NameNode和DataNode,这些节点都是用来存放数据的。其中NameNode中存放的是元数据,也就是一些文件与数据块的映射以及数据块与DataNode之间的映射(类比于操作系统中的目录文件)...原创 2018-11-11 21:58:57 · 830 阅读 · 0 评论 -
Zookeeper基本原理
这时大数据技术栈的开端ZookeeperZookeeper是干什么的?Zookeeper是一个分布式协调框架,他可以①实现集群管理(由于它自身的集群通信机制比如说为每一个集群节点建立一个临时节点在这个节点down机之后临时节点会销毁),②集群的统一配置管理(由于它的数据一致性)③统一命名服务(由于它内部维护的znode树)的节点是不能够重复的。④实现分布式屏障(这个就像...原创 2018-11-07 20:47:48 · 262 阅读 · 0 评论 -
台大林轩田机器学习技法完全解读
支持向量机(SVM)完全解读集成学习完全解读神经网络深度学习完全解读感谢林轩田老师!原创 2018-04-07 22:11:14 · 550 阅读 · 0 评论 -
台大林轩田机器学习基石&技法完全解读
台大林轩田机器学习基石学习笔记(一键直达)台大林轩田机器学习技法完全解读(一键直达)感谢林轩田老师!原创 2018-04-07 22:14:17 · 818 阅读 · 0 评论 -
机器学习之梯度提升树(机器学习技法)
梯度提升树模型(Gradient Boosted Decision Tree)与随机森林的对比前面提到的随机森林使用Bagging的方式融合起来,也就是使用bootstrapping进行抽样得到不同的样本再加上不同的特征选择训练出不同的决策树g来然后进行不同种类的融合最后组成森林。提升树模型则是使用了Adaboost模型的融合方式。Adaboost模型主要强调模型在每一次做决策的时候都会调整模型对...原创 2018-04-07 22:01:32 · 4984 阅读 · 0 评论 -
台大林轩田机器学习技法集成学习完全解读
Blending与BaggingAdaboost决策树(Decision Tree)随机森林(Random Forest)梯度提升树(GBDT)最后感谢林轩田老师!原创 2018-04-07 22:07:07 · 448 阅读 · 0 评论 -
机器学习之随机森林(机器学习技法)
随机森林(RandomForest)集成学习中的Bagging通过bootstrapping的方式进行抽取不同的资料从每一堆资料中学得一个小的模型g,然后再将这些小的模型进行融合进而得到一个更为稳定的大的模型G。决策树模型通过递归的方式按照某些特征进行分支得到更小的树,最后通过检测不纯度来决定是否停止切割。这个模型受资料影响较大,所以得到的模型不够稳定。如果将这两种学习模型合在一起就会构成一个既稳...原创 2018-04-06 17:03:12 · 1767 阅读 · 0 评论 -
机器学习之决策树(机器学习技法)
决策树决策树在集成学习中的地位整个集成学习会按照是否有线程的小的模型(g)分为两种。如果我们有g的话我们就会用blending。如果想一边学习g一边融合模型就会用到Bagging或AdaBoost。①在biending中如果是用平均组合的话可以用平均投票的方式,如果每个g所占的权重不同的时候就可以用线性模型组合这些g(此时这些g可以当做是原始资料的一种特征转换)。如果我们的投票活动与具体的情况有关...原创 2018-03-31 22:16:18 · 639 阅读 · 0 评论 -
机器学习之矩阵分解(机器学习技法)
特征编码二进制向量编码现实生活中有很多的多类别问题,比如说星座、血型、科目等等。机器学习中要处理这些多类别问题就会用到像决策树和随机森林这样的模型。但是这样多类别问题的模型实在太稀缺如果我们想要让其它数值模型也能够解决这些问题的话就需要将这些多元的类别编码将类别特征转换成数值特征。比如将血型编码如下图所示:用线性网络萃取特征现在有一个电影的推荐系统,我们现在有的数据就是每一个用户对每一部电影的评分...原创 2018-03-25 17:12:00 · 4200 阅读 · 0 评论 -
台大林轩田机器学习技法神经网络深度学习完全解读
笔者能力有限欢迎大家批评 : -)机器学习之神经网络机器学习之深度学习机器学习之RBFNetwork机器学习之矩阵分解原创 2018-03-25 17:17:46 · 1044 阅读 · 0 评论 -
机器学习之RBFNetwork(机器学习技法)
Radial Basis Function Network 什么是Radial Basis Function放射:说明我们的计算只与我们资料点x之间的距离有关。基本函数:我们要将放射计算的模型进行线性组合。如果把整个模型组合的过程想象成一种投票。实务上我们首先计算放射函数模型,根据资料点与中心的距离决定它应该拿到多少票。然后再乘上它要投的是同意或者反对的票。最后得到一个与距离相关的函数模型。得到函...原创 2018-03-24 22:36:09 · 6661 阅读 · 0 评论 -
机器学习之神经网络(机器学习技法)
神经网络的动机感知器的线性融合前面我们知道了将简单的模型进行融合之后会得到一个非常强大的模型。我们试着将感知器(简单的二元分类模型)做线性融合之后得到下图:其中每一个节点都是一个感知器,其第一层的感知器都是由前一层X向量与W权重的线性组合,而第二层的感知器又是由前一层的得到的小的感知器g与新一轮的权重α线性组合而成。最后得到的线性模型如上图右所示。用融合模型做逻辑运算我们试着用上面的融合模型去解决...原创 2018-03-17 21:57:44 · 14034 阅读 · 1 评论 -
机器学习之深度学习(机器学习技法)
深层神经网络先说说神经网络神经网络是由一个个的神经元所构成,其中每个神经元的内部都封装着一个线性或者是非线性的模型。每一个节点都会对应一个权重向量W。这个向量会与前面的输入所组合(透过tanh函数)组合后的输出又当做是新一轮的输入。我们希望模型的预测与我们的标签一样,那么我们最终的权重的大小就应该和物体的特点所一致这就是权重的意义。同时也说明了我们中间的隐藏层的转换就是我们对资料特征的萃取。最后我...原创 2018-03-18 21:21:32 · 1165 阅读 · 0 评论 -
机器学习之Blending与Bagging(机器学习技法)
一个融合的故事今天我的朋友向我荐股(这只股涨还是跌)我该怎么办,有以下的4种解决方法:①我只接受我最信任的朋友的意见(Validation模型检验)。②我让我的朋友们去投票然后选择票数最高的那一股。③我让我的朋友们去投票但是每个人投票的权重不同。④结合预测的情况去找不同的人,比如说科技股的叫A...传统股的叫B...这样我们就把这些人的意见(能够做的事情)就融合起来了。一些数学上的表示 ①用val...原创 2018-03-13 22:37:01 · 1450 阅读 · 0 评论 -
机器学习之Adaboost(机器学习技法)
逐步增强法(AdaptiveBoosting)引例逐步增强法的主要思想就是拿着一堆很弱的模型可以合成一个非常强大的模型(这一点与Bagging十分相似)。一个案例对算法的直观描述在课堂上老师让小孩去辨识图中那些是苹果,由于小孩的思维比较简便所以他们一次只能够学到一条规则: 一号同学说苹果是圆的所以他在一些图片的辨识上回犯错如下,所有的错误都放大显示所有的正确的都相对缩小: 这时我们的做法就是将一号...原创 2018-03-11 20:45:07 · 2577 阅读 · 0 评论 -
台大林轩田支持向量机(SVM)完全解读
欢迎批评机器学习之线性支持向量机机器学习之对偶支持向量机机器学习之核函数支持向量机机器学习之软间隔支持向量机机器学习之核函数逻辑回归机器学习之支持向量机回归最后感谢林轩田老师。...原创 2018-02-26 23:40:38 · 3189 阅读 · 0 评论 -
机器学习之支持向量机回归(机器学习技法)
核函数山脊回归Represent Theorem表达理论就是指如果一个模型是带有L2正则化的线性模型,那么它在最佳化的时候的权重参数值W*将能够用Z空间的资料的线性组合来表示。它的推论就是L2的正则化线性模型能够核函数化如下图所示:现在我们的目标就是用核函数的方式去解决回归问题,而且希望像解决普通线性回归问题一样得到一个一步登天的解。核函数山脊回归问题山脊回归问题是一个典型的带有L2正则化的问题,...原创 2018-02-26 23:34:36 · 12064 阅读 · 0 评论 -
机器学习之核函数逻辑回归(机器学习技法)
从软间隔SVM到正则化从参数ξ谈起在软间隔支持向量机中参数ξ代表某一个资料点相对于边界犯错的程度,如下图:在资料点没有违反边界时ξ的值为0,在违反边界时的值就会大于0。所以总的来说ξ的值等于max(1 - y(WZ + b) , 0)。所以我们把问题合并如下:这样这个问题就变成了一个没有条件的问题。与L2正则化的关系上述简化后的问题与L2的正则化极其相似:它们的目标都是最小化W²与一个错误衡量的和...原创 2018-02-24 18:48:13 · 8366 阅读 · 0 评论 -
机器学习之软间隔支持向量机(机器学习技法)
为什么要软间隔SVM硬边距SVM的过拟合对于硬边距SVM产生过拟合的原因主要有两点:①我们选用的模型复杂度太高 ②我们坚持要将资料严格的分开。如下:从直觉来说Φ1虽然有一些犯错的地方但是它的模型复杂度较低不容易过拟合。我们不在执着于将资料严格分开(容忍一些小错误),我们想要的是较低的复杂度的模型来降低过拟合的危险。软边距SVM的诞生在pocket算法中我们的思想是找到犯错误最小的模型,它不执著与将...原创 2018-02-21 20:04:18 · 7188 阅读 · 1 评论 -
机器学习之核函数支持向量机(机器学习技法)
为什么要有个核函数在对偶支持向量机中我们谈到要避开特征转换后高VC维度空间给我们带来的计算复杂度的影响。但是单单的对偶问题没有实现这一点,对偶问题只是让计算看起来避开了VC维度带来的影响,但是这个VC维度还是潜藏在了计算的过程中。上图是SVM的拉格朗日对偶问题转换为标准的二次规划问题(以下称之为QP问题)的结果。其中QD矩阵的计算中包含了Z向量的内积。而Z向量是由原始X空间(它的VC维度为d)经过...原创 2018-02-20 09:44:53 · 4323 阅读 · 0 评论 -
机器学习之对偶支持向量机(机器学习技法)
为什么要有一个对偶问题一般SVM的求解一般SVM的求解我们的目标就是最小化W²而且伴随着一个条件如下图:在实务上我们通常把这个标准问题转化为一个二次规划的问题(以下称之为QP问题)然后使用软件去解决这个问题找到最优的b,W:在我们得到一个线性的SVM的时候我们可以通过特征转换让SVM变成更为强大的非线性分类器。遇到的问题和我们的目标在解决QP问题是时我们会遇到d+1个变量和N个约束条件,有时候由于...原创 2018-02-18 18:47:09 · 1165 阅读 · 1 评论 -
机器学习之线性支持向量机(机器学习技法)
胖的就是好的(以二元分类为例)直觉的选择现在我们已经能够分割线性的资料了,但是由于以前的算法(PLA,Pocket,etc.)具有一些随机性所以我们得到的线性模型不尽相同。如下图:在图中所有的模型(超平面)都能够分割样本中的资料,而且在VC上限的保证下这3个模型好像没有什么不同。但是仅仅凭借直觉我们可能会选择第3个仿佛有什么好处。一个全新的角度我们做机器学习的目标就是模型要在测试的资料上表现的好(...原创 2018-02-17 01:08:45 · 2067 阅读 · 6 评论 -
台大林轩田机器学习基石学习笔记(一键直达)
机器学习基石,从内核展示了机器学习原理是每个机器学习工程师必看的经典教程。还有就是林老师很帅!什么是机器学习?PLA算法机器学习的VC维度机器学习中的噪音机器学习中的错误衡量机器学习之线性回归机器学习之梯度下降法机器学习之多元分类机器学习之非线性分割机器学习之特征转换与过拟合机器学习之正则化机器学习之模型检验分享主流机器学习教程最后致敬林轩田老师,感谢!...原创 2018-02-13 11:57:32 · 4299 阅读 · 0 评论 -
机器学习之模型检验
模型检验的目的随着学习算法种类,特征转换方式,正则化方式等等的增加,在不同的组合之下我们就会得到种类非常多的学习模型。而在实务上我们通常想要的就是那个Eout最小的模型,所以我们在面临众多的学习模型的时候需要作出选择,而模型检验结果的好坏正是我们作出选择的依据。下图为一个学习模型的不同组成方式:模型选择问题通过Eout选择模型?这是不可行的。我们希望在得到的模型中选择一个做的最好的模型g要使得它的...原创 2018-02-13 11:41:43 · 9345 阅读 · 0 评论 -
机器学习之正则化(机器学习基石)
正则化的目标在机器学习问题中有时会由于资料量太少、有杂讯或者是学习模型的复杂度太高会导致一种Ein≈0(样本内的错误率)但是Eout(实际估计中的错误率)很高的现象这种现象就叫过拟合(详情请点击打开链接了解过拟合)。正则化的目标就是要优化这种过拟合的现象,而且正则化是通过降低模型复杂度来解决过拟合的。直观的理解如下图:正则化的前置步骤前提说明:在以下的案例中所有的模型都经过了特征转换,都转换成了高...原创 2018-02-11 11:11:45 · 948 阅读 · 2 评论