- 博客(6)
- 问答 (1)
- 收藏
- 关注
原创 机器学习面试:最大似然估计
假如你要统计学校女生的平均身高,但是你没有能力得到全校女生的数据,你想了想,可以统计你们班女生的身高,然后估计全校女生的平均身高。这其实就是极大然估计的思想。极大似然是指,当模型确定,参数不知时,我们利用采集的信息,反推出最有可能生成这组信息的模型。极大似然有两个假设:模型确定,参数未知样本独立同分布得到这样所有的数据都是由同一个分布(模型)得到的,模型也就可以可以倒推出来。 假设一组样本X
2017-07-31 11:16:59 489 1
原创 Working with Linear Models
Fitting a line through data线性回归简单的讲就是拟合,我们给定一组特征x=[x1,xx,⋯,xn]x=[x_{1},x_{x},\cdots,x_{n}]和目标输出yy,求一组参数来组合这组特征使其输出接近目标 y=f(x)=wTx=Σni=1wixiy=f(x)=w^{T}x=\Sigma_{i=1}^{n} w_{i}x_{i} 假设我们由一组观测样本(x(1),y
2017-07-30 12:02:57 250
原创 机器学习面试:信息熵
信息编码我所知道的信息量是来源于信息编码,例如,我们有一篇英文文章,我要对这篇文章尽进行二进制编码,以达到压缩文章的效果,我该如何编码。我们知道,ASIIC编码都是使用相同长度的二进制来编码的(8位长),例如, A0100 0001B0100 0010 a0110 0001b0110 0010 10011 000120011 0010可是我们也知道文章中有的字符出现的次数比较
2017-07-30 11:58:31 1320
原创 Building Models with Distance Metrics
这里将会讨论聚类,聚类是指给定一组没有标签的样本集DD ,将DD 划分为互不相交的k个子集,即k个样本簇。KMeansk-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。已知观测集 {x1,x2,⋯,xn}\left \{
2017-07-29 16:56:36 799
原创 Premodel Workflow
Premodel Workflow标签:sklearn cookbook导入数据from sklearn import datasetssklearn 的小数据集都包含在datasets.load_中,可以直在python命令行中运行datasets.load_*?来查看有哪些数据。 输出结果:datasets.load_bostondatasets.load_breast_cancerdat
2017-07-20 16:57:07 482
原创 python指定后缀文件拷贝
import osimport shutilfrom enum import Enumclass dirStruct(Enum): DirNone = 1 #直接拷贝到指定的目录 DirExt = 2 #按后缀名新建文件夹,将相同的文件拷贝到指定的目录 DirOrigin = 3 #按照原来目录来新建目录并且拷贝文件def copyextfile
2017-07-20 15:35:48 2168
空空如也
tensorflow 数据读取,哪位帮我解释一下
2018-05-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人