2017年07月_WX Chen

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创线性回归和逻辑回归

回归问题的条件/前提：1）收集的数据2）假设的模型，即一个函数，这个函数里含有未知的参数，通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归线性模型函数，向量表示形式：一个含未知参数的线性模型，一堆观测数据，其模型与数据的误差最小的形式，模型与数据差的平方和最小：

2017-07-01 21:25:47 680

原创 ROC和AUC

很多时候我们都用到ROC和AUC来评判一个二值分类器的优劣，其实AUC跟ROC息息相关，AUC就是ROC曲线下部分的面积。既然有了ACC为什么要有ROC呢(既生瑜何生亮呢)我们知道，我们常用ACC准确率来判断分类器分类结果的好坏，既然有了ACC为什么还需要ROC呢，很重要的一个因素是实际的样本数据集中经常会出现数据偏斜的情况，要么负类样本数大于正类样本数，要么正类样本数大于

2017-07-01 21:16:56 458

原创离散化特征的方法

在logistic regression上，需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处，还可以引入非线性特性，模型会更稳定连续性变量转化成离散型变量大致有两类方法：（1）卡方检验方法；（2）信息增益方法；一：卡方检验（X2检验）方法1.1 分裂方法1.2 合并方法分裂方法，就是找到一个分

2017-07-01 21:16:07 2193

原创归一化方法

1、线性函数归一化(Min-Max scaling)线性函数将原始数据线性化的方法转换到[0 1]的范围，归一化公式如下：2、0均值标准化(Z-score standardization)0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集，归一化公式如下：该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得

2017-07-01 21:14:35 997

原创 K-近邻（KNN）算法

思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时

2017-07-01 21:12:36 271

原创 KNN的距离都有哪些

在KNN算法中，常用的距离有三种，分别为曼哈顿距离、欧式距离和闵可夫斯基距离。闵可夫斯基距离：这里的p值是一个变量，当p=1的时候就得到了曼哈顿距离；当p=2的时候就得到了欧氏距离。切比雪夫距离：当p趋向于无穷大时，曼哈顿距离、欧氏距离和切比雪夫距离都是明可夫斯基距离在特殊条件下的应用。

2017-07-01 21:11:25 3828

原创支持向量机（SVM）

支持向量机，其含义是通过支持向量运算的分类器。支持向量机是一个二类分类器。在求解的过程中，会发现只根据部分数据就可以确定分类器，这些数据称为支持向量。见下图，在一个二维环境中，其中点R，S，G点和其它靠近中间黑线的点可以看作为支持向量，它们可以决定分类器，也就是黑线的具体参数。线性分类：可以理解为在2维空间中，可以通过一条直线来分类。在p维空间中，可以通过一个p

2017-07-01 21:09:33 516

原创朴素贝叶斯分类

朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。朴素贝叶斯分类的正式定义如下： 1、设为一个待分类项，而每个a为x的一个特征属性。 2、有类别集合。 3、计算。 4、如果，则。那么现在的关键

2017-07-01 21:05:38 446

原创贝叶斯网络（又称贝叶斯信念网络或信念网络）

朴素贝叶斯分类有一个限制条件，就是特征属性必须有条件独立或基本独立（实际上在现实应用中几乎不可能做到完全独立）一个贝叶斯网络定义包括一个有向无环图（DAG）和一个条件概率表集合。DAG中每一个节点表示一个随机变量，可以是可直接观测变量或隐藏变量，而有向边表示随机变量间的条件依赖；条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率。

2017-07-01 20:57:17 3730

原创 HDFS和MapReduce

Hadoop的核心就是HDFS和MapReduceHDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。HDFS的设计特点是：1、大数据文件，非常适合上T级别

2017-07-01 20:55:42 341

原创 Spark的原理

Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。Spark有如下优势：Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。

2017-07-01 20:54:26 291

将多页PDF文件，拆分为单页的PDF文件

2024-01-21

PDF文件压缩本方法适用于扫描件PDF文档压缩，可编辑PDF文档不建议使用本方法

将大文件PDF压缩成小文件PDF

2024-01-18

双目视频视差图变化剧烈

2017-07-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

将多页PDF文件，拆分为单页的PDF文件

PDF文件压缩 本方法适用于扫描件PDF文档压缩，可编辑PDF文档不建议使用本方法

双目视频视差图变化剧烈

PDF文件压缩本方法适用于扫描件PDF文档压缩，可编辑PDF文档不建议使用本方法