自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Machine Learning with Tutors

分享机器学习,数学,统计和编程干货

  • 博客(24)
  • 资源 (10)
  • 问答 (1)
  • 收藏
  • 关注

原创 什么是异构数据库?它和分布式数据库的联系是什么?

数据仓库可以从异构数据库系统中的多个数据库中收集信息,并建立统一的全局模式,同时收集的数据还支持对历史数据的访问,用户通过数据仓库提供的统一的数据接口进行决策支持的查询。例如,在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。在转换的过程中,有时要想实现严格的等价转换是比较困难的。

2017-12-30 20:46:11 6376

原创 MYSQL中SET NAMES UTF8的作用和内涵

,发现原来为latin1的那些变量“character_set_client”、“character_set_connection”、“character_set_results”的值全部变为utf8了,原来是这3个变量在捣蛋。如果两种字符集不兼容,比如latin1和utf8,转化过程就为不可逆的,破坏性的。所以,从服务器配置的角度而言,是没办法省略掉那行代码的。网上查了半天,解决办法倒是简单,在连接数据库之后,读取数据之前,先执行一项查询“SET NAMES UTF8”,即在PHP里为。

2017-12-28 19:17:22 9082 1

原创 Mysql学习笔记(二):子查询与连接

下列代码是我在学习MOOC的视频时做的一些练习,内容比较简单,本节主要涉及内外连接以及子分类(自连接),大家可以作为练习参考直接使用代码如下://Join的使用USe mooc; Select * from tdb_goods group by goods_id ASC;ALTER TABLE tb_cates rename to goods_cate; INSERT goods_c

2017-12-28 12:15:03 505

原创 Mysql学习笔记(一):子查询与选择

下列代码是我在学习MOOC的视频时做的一些练习,内容比较简单,主要涉及子查询与连接,大家可以作为练习参考直接使用代码如下:Create database MOOC;Use MOOC;SET NAMES utf8; CREATE TABLE IF NOT EXISTS tdb_goods( goods_id SMALLINT UNSIGNED PRIMARY KEY AUTO_INC

2017-12-28 12:07:33 532

翻译 优化算法中的鞍点与梯度下降

摘要:本文将讨论寻找凸路径( convex path )时可能会遇到的不同类型的临界点( critical points),特别是基于梯度下降的简单启发式学习方法,在很多情形下会使你在多项式时间内陷入局部最小值( local minimum ) 。凸函数比较简单——它们通常只有一个局部最小值。非凸函数则更加复杂。在这篇文章中,我们将讨论不同类型的临界点( critical points)

2017-12-25 19:44:10 11888 1

原创 Hessian矩阵正定与函数凹凸性的关系

当然,通过主元变换或直接求出行列式的值也是方法之一,但由于缺乏充分性,即行列式小于零一定非正定,但大于零则不一定正定,因为偶数次的负元素相乘依旧得正,因此用所有主元(对角线)上的元素来判断的方法更为完备。因此,在诸如牛顿法等梯度方法中,使用黑塞矩阵的正定性可以非常便捷的判断函数是否有凸性,也就是是否可收敛到局部/全局的最优解。正定、半正定矩阵的直觉代表一个向量经过它的变化后的向量与其本身的夹角小于等于90度。Hessian矩阵的正定性在判断优化算法可行性时非常有用,简单地说,黑塞矩阵正定,则。

2017-12-25 19:15:58 75236 4

原创 贝叶斯分类与贝叶斯网络

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。

2017-12-24 21:53:19 12730 2

原创 正交矩阵和Gram-Schmidt正交化

我们很容易得出,如果一个矩阵Q的列向量是标准正交的,那么Q’Q=I.如果Q还是个方阵,那么就称矩阵Q是正交矩阵.且有Q’Q=I ==> Q’ = Q-1。我现在想找两个向量A,B,他们不仅相互独立,且正交,也就是A和B生成的空间与a和b生成的空间一样,但是A和B是垂直的.P=Q(Q’Q)-1Q’=QQ’=I,对于最小二乘问题Q’Qx=Q’b,可简化为x=Q’b,即。向量a和b的方向都是任意的,但是二者并不垂直,a的方向不是一定为水平的,这里只是为了好看起见。由此,引出了重要的矩阵分解中的QR分解。

2017-12-24 21:50:56 2064

原创 (PCA与信息)方差和熵

下图是某股票数据的熵和对数标准差关系[2]:可以看出熵和ln(σ)ln⁡(σ)有很强的正相关的关系。对于常见的分布可以很容易推导出他们的熵和方差。[3]

2017-12-24 21:50:09 2792

原创 正交投影与变换

投影的严格定义是:一个从向量空间V射到它自身的线性变换P是投影,当且仅当。另外一个定义则较为直观:P是投影,当且仅当存在V的一个子空间W,使得P将所有V中的元素都映射到W中,而且P在W上是恒等变换。用数学的语言描述,就是:,使得,并且。

2017-12-24 21:47:49 11170 1

原创 矩阵范数与矩阵的模

A是n阶方阵,λi是其特征值,i=1,2,…,n。则称特征值的绝对值的最大值为A的谱半径,记为ρ(A)。

2017-12-23 19:42:35 63110 1

原创 MYSQL的Commit与程序的原子性

MySQL默认操作模式就是autocommit自动提交模式。这就表示除非显式地开始一个事务,否则每个查询都被当做一个单独的事务自动执行。我们可以通过设置autocommit的值改变是否是自动提交autocommit模式。从查询结果中,我们发现Value的值是ON,表示autocommit开启。我们可以通过以下SQL语句改变这个模式值0和OFF都是一样的,当然,1也就表示ON。

2017-12-22 23:43:57 1019

原创 机器学习中的VC维数和分类

VC维数学习VC维要先知道的概念有:增长函数(growth function)、对分(dichotomy)、打散(shattering)和断点(break point)1.增长函数增长函数表示假设空间H对m个示例所能赋予标记的最大可能结果数。比如说现在数据集有两个数据点,考虑一种二分类的情况,可以将其分类成A或者B,则可能的值有:AA、AB、BA和BB,

2017-12-22 23:23:20 6677 1

原创 [交叉验证]机器学习中分类器的选择

在机器学习中,分类器作用是在标记好类别的训练数据基础上判断一个新的观察样本所属的类别。分类器依据学习的方式可以分为非监督学习和监督学习。非监督学习顾名思义指的是给予分类器学习的样本但没有相对应类别标签,主要是寻找未标记数据中的隐藏结构。,监督学习通过标记的训练数据推断出分类函数,分类函数可以用来将新样本映射到对应的标签。在监督学习方式中,每个训练样本包括训练样本的特征和相对应的标签。

2017-12-22 23:12:15 8024 4

原创 什么是特征工程?如何进行特征工程?

再让我们回归一下本文开始的特征工程的思维导图,我们可以使用sklearn完成几乎所有特征处理的工作,而且不管是数据预处理,还是特征选择,抑或降维,它们都是通过某个类的方法fit_transform完成的,fit_transform要不只带一个参数:特征矩阵,要不带两个参数:特征矩阵加目标向量。这些难道都是巧合吗?还是故意设计成这样?方法fit_transform中有fit这一单词,它和训练模型的fit方法有关联吗?接下来,我将在《使用sklearn优雅地进行数据挖掘》中阐述其中的奥妙!

2017-12-22 23:09:18 75599 4

原创 如何使用sklearn进行数据挖掘

目录1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤1.2 数据初貌1.3 关键技术2 并行处理2.1 整体并行处理2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工...

2017-12-22 23:07:34 580

原创 方差-偏差平衡(Bias-Variance Balance)与模型选择

这个靶子上的点(hits)可以理解成一个一个的拟合模型,如果许多个拟合模型都聚集在一堆,位置比较偏,如图中 high bias low variance 这种情景,意味着无论什么样子的数据灌进来,拟合的模型都差不多,这个模型过于简陋了,参数太少了,复杂度太低了,这就是欠拟合;而过高的bias对应的概念,有点像『面面俱到』『大巧若拙』的意思,如果说一个人bias比较高,可以理解为,这个人是个好好先生,谁都不得罪,圆滑世故,说话的时候,什么都说了,但又好像什么都没说,眼光比较长远,有大局观。

2017-12-22 23:06:10 2172

原创 C和C++中字串符(String)和字符串字面量(String Literal)的区别

C/C++中的对象指的是一块存储区。字符串字面量是不需要创建过程就可以使用的对象,所以它既没有变量那样的声明或者定义(字符串字面量是无名对象),也不需要向动态分配的对象那样进行动态分配。由于这个原因,用来限定变量的类型限定符(如CONST、VOLATILE)以及存储类别指示符(如EXTERN、STATIC、AUTO、REGISTER)不能用在字符串字面量上。

2017-12-22 23:04:50 7056 1

转载 OLAP(On-line Analytical Processing,联机分析处理)

数据仓库的多维数据模型  可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用多维数据模型是

2017-12-22 23:03:49 2107

原创 [C/C++]堆栈的概念与区别

栈:在函数调用时,第一个进栈的是主函数中后的下一条指令(函数调用语句的下一条可执行语句)的地址,然后是函数的各个参数,在大多数的C编译器中,参数是由右往左入栈的,然后是函数中的局部变量。堆:首先应该知道操作系统有一个记录空闲内存地址的链表,当系统收到程序的申请时会遍历该链表,寻找第一个空间大于所申请空间的堆结点,然后将该结点从空闲结点链表中删除,并将该结点的空间分配给程序,另外,对于大多数系统,会在这块内存空间中的首地址处记录本次分配的大小,这样,代码中的delete语句才能正确的释放本内存空间。

2017-12-22 23:01:19 620

原创 DML、DDL的概念与区别

SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。DML(Data Manipulation Language)数据操纵语言: 适用范围:对数据库中的数据进行一些简单操作,如insert,delete,update,select等.DDL(Data Definition Language)数据定义语言: 适用范围:对数据库中的某些对象(例如,

2017-12-01 21:15:11 16443 1

原创 Mysql中Drop,Truncate,Delete的区别

1、delete是DML,执行delete操作时,每次从表中删除一行,并且同时将该行的的删除操作记录在redo和undo表空间中以便进行回滚(rollback)和重做操作,但要注意表空间要足够大,需要手动提交(commit)操作才能生效,可以通过rollback撤消操作。(6)truncate与不带where的delete :只删除数据,而不删除表的结构(定义)drop语句将删除表的结构被依赖的约束(constrain),触发器(trigger)索引(index);新行标识所用的计数值重置为该列的种子。

2017-12-01 21:09:42 1405

原创 触发器(Trigger)的使用方法详解

MySQL包含对触发器的支持。触发器是一种与表操作有关的数据库对象,当触发器所在表上出现指定事件时,将调用该对象,即表的操作事件触发表上的触发器的执行。创建触发器在MySQL中,创建触发器语法如下:CREATE TRIGGER trigger_nametrigger_timetrigger_event ON tbl_nameFOR EACH ROWtrigger_stmt其中:trigger

2017-12-01 13:30:33 16030

原创 无法添加外键约束的原因(cannot add foreign key constraint)

需要注意的是,在SQL中,参照关系可以为主键,但在MYSQL中,参照关系不能为主键。原因是在SC这张表中,作为参照关系,SNO的数据类型没有保持和被参照的表STUDENT。然后,创建下面这张表,其中SNO为外键,参照关系是SC,被参照是STUDENT。在这张已经建成的STUDENT表中,SNO为Primary Key, 类型为。3.参照表的值需要在所参考的表的那一个主键中已经存在的(即不能为空)2.外键所参照的键必须为被参照表的主键;1.外键不能为新建表的主键;更多相关代码可以访问。

2017-12-01 12:15:00 23174 1

支持向量机通俗导论(SVM三层境界)-2018最新LaTex版

此版本我找了很久,是作者July最新订正的博文整理而来,比原来的版本多了20页,干货十足,也是支持向量机SVM详解的深度好文,难度适中。

2018-06-05

最优化:GMRES算法

最优化算法里的一个比较重要的算法GMRES,里面还讲了GRAM正交等

2018-05-26

An Introduction to Statistical Learning with R

统计学习殿堂级入门课本,PRML/ESL前置必读,另外看完这本书去看别的书会非常流畅

2018-05-26

Matrix CookBook

用于机器学习,数据挖掘有关矩阵知识的汇总复习,简短有用

2018-05-26

利用Python进行数据分析(高清中文版)

中文原版,最新的一个版本,代码和字都很清晰。自己看完了,分享一下

2018-05-26

2017留学行业大数据报告

2017留学行业数据报告,包括人数,专业,出国趋势等各项分析

2018-05-26

机器学习:迫近算子

机器学习中的一篇有关迫近算子的论文,对于一些模型有参考作用

2018-05-26

TCP/IP简明教程

40页的教程,简要介绍了TCP/IP和OSI协议的架构和细节,适合入门

2018-05-26

Python新闻标题挖掘小项目

主要教大家用Python构建一个小的文本挖掘项目,用来挖掘新闻标题(内附代码)

2018-05-26

Kronecker克罗内克积

线性代数中有关直和与直积的运算,这里主要讲解了在矩阵里的应用

2018-05-26

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除