2017年07月_我家大宝最可爱

原创机器学习面试：最大似然估计

假如你要统计学校女生的平均身高，但是你没有能力得到全校女生的数据，你想了想，可以统计你们班女生的身高，然后估计全校女生的平均身高。这其实就是极大然估计的思想。极大似然是指，当模型确定，参数不知时，我们利用采集的信息，反推出最有可能生成这组信息的模型。极大似然有两个假设：模型确定，参数未知样本独立同分布得到这样所有的数据都是由同一个分布（模型）得到的，模型也就可以可以倒推出来。假设一组样本X

2017-07-31 11:16:59 489 1

原创 Working with Linear Models

Fitting a line through data线性回归简单的讲就是拟合，我们给定一组特征x=[x1,xx,⋯,xn]x=[x_{1},x_{x},\cdots,x_{n}]和目标输出yy，求一组参数来组合这组特征使其输出接近目标 y=f(x)=wTx=Σni=1wixiy=f(x)=w^{T}x=\Sigma_{i=1}^{n} w_{i}x_{i} 假设我们由一组观测样本(x(1),y

2017-07-30 12:02:57 250

原创机器学习面试：信息熵

信息编码我所知道的信息量是来源于信息编码，例如，我们有一篇英文文章，我要对这篇文章尽进行二进制编码，以达到压缩文章的效果，我该如何编码。我们知道，ASIIC编码都是使用相同长度的二进制来编码的（8位长），例如， A0100 0001B0100 0010 a0110 0001b0110 0010 10011 000120011 0010可是我们也知道文章中有的字符出现的次数比较

2017-07-30 11:58:31 1320

原创 Building Models with Distance Metrics

这里将会讨论聚类，聚类是指给定一组没有标签的样本集DD ，将DD 划分为互不相交的k个子集，即k个样本簇。KMeansk-平均聚类的目的是：把n个点（可以是样本的一次观察或一个实例）划分到k个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。已知观测集 {x1,x2,⋯,xn}\left \{

2017-07-29 16:56:36 799

原创 Premodel Workflow

Premodel Workflow标签:sklearn cookbook导入数据from sklearn import datasetssklearn 的小数据集都包含在datasets.load_中，可以直在python命令行中运行datasets.load_*?来查看有哪些数据。输出结果：datasets.load_bostondatasets.load_breast_cancerdat

2017-07-20 16:57:07 482

原创 python指定后缀文件拷贝

import osimport shutilfrom enum import Enumclass dirStruct(Enum): DirNone = 1 #直接拷贝到指定的目录 DirExt = 2 #按后缀名新建文件夹，将相同的文件拷贝到指定的目录 DirOrigin = 3 #按照原来目录来新建目录并且拷贝文件def copyextfile

2017-07-20 15:35:48 2168

he_wen_jie的博客

原创机器学习面试：最大似然估计

原创 Working with Linear Models

原创机器学习面试：信息熵

原创 Building Models with Distance Metrics

原创 Premodel Workflow

原创 python指定后缀文件拷贝

空空如也

tensorflow 数据读取，哪位帮我解释一下

原创 机器学习面试：最大似然估计

原创 Working with Linear Models

原创 机器学习面试：信息熵

原创 Building Models with Distance Metrics

原创 Premodel Workflow

原创 python指定后缀文件拷贝

空空如也

tensorflow 数据读取，哪位帮我解释一下

原创机器学习面试：最大似然估计

原创机器学习面试：信息熵