自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 问答 (1)
  • 收藏
  • 关注

原创 机器学习面试:最大似然估计

假如你要统计学校女生的平均身高,但是你没有能力得到全校女生的数据,你想了想,可以统计你们班女生的身高,然后估计全校女生的平均身高。这其实就是极大然估计的思想。极大似然是指,当模型确定,参数不知时,我们利用采集的信息,反推出最有可能生成这组信息的模型。极大似然有两个假设:模型确定,参数未知样本独立同分布得到这样所有的数据都是由同一个分布(模型)得到的,模型也就可以可以倒推出来。 假设一组样本X

2017-07-31 11:16:59 447 1

原创 Working with Linear Models

Fitting a line through data线性回归简单的讲就是拟合,我们给定一组特征x=[x1,xx,⋯,xn]x=[x_{1},x_{x},\cdots,x_{n}]和目标输出yy,求一组参数来组合这组特征使其输出接近目标 y=f(x)=wTx=Σni=1wixiy=f(x)=w^{T}x=\Sigma_{i=1}^{n} w_{i}x_{i} 假设我们由一组观测样本(x(1),y

2017-07-30 12:02:57 239

原创 机器学习面试:信息熵

信息编码我所知道的信息量是来源于信息编码,例如,我们有一篇英文文章,我要对这篇文章尽进行二进制编码,以达到压缩文章的效果,我该如何编码。我们知道,ASIIC编码都是使用相同长度的二进制来编码的(8位长),例如, A0100 0001B0100 0010 a0110 0001b0110 0010 10011 000120011 0010可是我们也知道文章中有的字符出现的次数比较

2017-07-30 11:58:31 1284

原创 Building Models with Distance Metrics

这里将会讨论聚类,聚类是指给定一组没有标签的样本集DD ,将DD 划分为互不相交的k个子集,即k个样本簇。KMeansk-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。已知观测集 {x1,x2,⋯,xn}\left \{

2017-07-29 16:56:36 758

原创 Premodel Workflow

Premodel Workflow标签:sklearn cookbook导入数据from sklearn import datasetssklearn 的小数据集都包含在datasets.load_中,可以直在python命令行中运行datasets.load_*?来查看有哪些数据。 输出结果:datasets.load_bostondatasets.load_breast_cancerdat

2017-07-20 16:57:07 452

原创 python指定后缀文件拷贝

import osimport shutilfrom enum import Enumclass dirStruct(Enum): DirNone = 1 #直接拷贝到指定的目录 DirExt = 2 #按后缀名新建文件夹,将相同的文件拷贝到指定的目录 DirOrigin = 3 #按照原来目录来新建目录并且拷贝文件def copyextfile

2017-07-20 15:35:48 2098

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除