2017年08月_WX Chen

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创过拟合问题，怎么样解决

过拟合有两种原因：训练集和测试集特征分布不一致（白天鹅黑天鹅）或者模型太过复杂（记住了每道题）而样本量不足解决过拟合也从这两方面下手，收集多样化的样本，简化模型，交叉检验。cross validation，交叉比对（交叉验证）来来回回用不同的测试对象和训练对象做交叉比对。这样学到规律就不会过拟合啦~ 加Regularization，正则项这个Regularizat...

2017-08-08 16:41:10 965

原创 logistic分类（logistic回归 LR）

几乎所有的教材都是从logistic分类开始的，因为logistic分类实在太经典，而且是神经网络的基本组成部分，每个神经元(cell)都可以看做是进行了一次logistic分类。所谓logistic分类，顾名思义，逻辑分类，是一种二分类法，能将数据分成0和1两类。logistic分类的流程比较简单，主要有线性求和，sigmoid函数激活，计算误差，修正参数这4个步骤。前两部用于判断，后两...

2017-08-08 16:39:10 615

原创激活函数和损失函数

激活函数在之前的logistic和神经网络中，激活函数是sigmoid, 损失函数是平方函数。但是这并不是固定的。激活函数的主要作用是提供网络的非线性建模能力。只有加入了激活函数之后，深度神经网络才具备了分层的非线性映射学习能力。常见的激活函数多是分段线性和具有指数形状的非线性函数。损失函数其中y是我们期望的输出，a为神经元的实际输出因为s...

2017-08-08 16:35:56 2332

转载层次聚类算法

不管是GMM，还是k-means，都面临一个问题，就是k的个数如何选取？为了不在这个参数的选取上花费太多时间，可以考虑层次聚类。假设有N个待聚类的样本，对于层次聚类来说，基本步骤就是： 1、（初始化）把每个样本归为一类，计算每两个类之间的距离，也就是样本与样本之间的相似度； 2、寻找各个类之间最近的两个类，把他们归为一类（这样类的总数就少

2017-08-08 16:32:05 677

原创 KMeans K值以及初始类簇中心点的选取

给定一个合适的类簇指标，比如平均半径或直径，只要我们假设的类簇的数目等于或者高于真实的类簇的数目时，该指标上升会很缓慢，而一旦试图得到少于真实数目的类簇时，该指标会急剧上升。当K取值5时，类簇指标的下降趋势最快，所以K的正确取值应该是5.确定K个初始类簇中心点：首先随机选择一个点作为第一个初始类簇中心点，然后选择距离该点最远的那个点作为第二个初始类簇中心

2017-08-08 16:31:17 2416

原创基于密度的聚类算法

基于距离的聚类算法，如K-Means算法。基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域。与基于距离的聚类算法不同的是，基于距离的聚类算法的聚类结果是球状的簇，而基于密度的聚类算法可以发现任意形状的聚类，这对于带有噪音点的数据起着重要的作用。DBSCAN(Density-Based Spatial Clustering of Application wi

2017-08-08 16:30:46 1403

原创监督学习与无监督学习

监督学习，就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。监督学习里典型的例子就是KNN、SVM。无监督学习（也有人叫非监督学习，反正都差不多）则是另一种

2017-08-08 16:29:58 310

原创期望最大(EM)算法

在概率模型中寻找参数最大似然估计的算法。em算法是一种迭代算法，用于含有隐变量的参数模型的最大似然估计。应用于数据聚类领域。最大似然估计：（1）写出似然函数；　　（2）对似然函数取对数，并整理；　　（3）求导数；　　（4）解似然方程期望最大算法经过两个步骤交替进行计算，第一步是计算期望（E），也就是将隐藏

2017-08-08 16:29:16 895

原创 k均值聚类(K-means)

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。所谓聚类问题，就是给定一个元素集合D，其中每个元素具有n个可观察

2017-08-08 16:28:13 540

原创高斯混合模型 GMM —— 聚类

混合模型：通过密度函数的线性合并来表示未知模型。为什么提出混合模型，那是因为单一模型与实际数据的分布严重不符，但是几个模型混合以后却能很好的描述和预测数据。高斯混合模型（GMM），说的是把数据可以看作是从数个高斯分布中生成出来的。Mixture Model 本身其实也是可以变得任意复杂的，通过增加 Model 的个数，我们可以任意地逼近任何连续的概率密度分布。更一

2017-08-08 16:27:18 1366

将多页PDF文件，拆分为单页的PDF文件

2024-01-21

PDF文件压缩本方法适用于扫描件PDF文档压缩，可编辑PDF文档不建议使用本方法

将大文件PDF压缩成小文件PDF

2024-01-18

双目视频视差图变化剧烈

2017-07-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

将多页PDF文件，拆分为单页的PDF文件

PDF文件压缩 本方法适用于扫描件PDF文档压缩，可编辑PDF文档不建议使用本方法

双目视频视差图变化剧烈

PDF文件压缩本方法适用于扫描件PDF文档压缩，可编辑PDF文档不建议使用本方法