2018年08月_Shingle_

原创卷积神经网络在计算机视觉中的演进

LeNet卷积神经网络net = nn.Sequential()net.add( nn.Conv2D(channels=6, kernel_size=5, activation='sigmoid'), nn.MaxPool2D(pool_size=2, strides=2), nn.Conv2D(channels=16, kernel_size=5, acti...

2018-08-31 23:40:44 1772

原创卷积神经网络中的算术问题（Convolution arithmetic）

在卷积神经网络中，一个卷积层的输出形状受它的输入形状、卷积核大小、补零（zero padding）以及步长（strides）这四个因素的影响。全连接网络没有这个限制，它的输出形状独立于输入形状，而这也几乎是卷积神经网络中最令人怯步的地方了。卷积操作在4D张量上，例如Theano：filter_shape（output_channels, ++input_channels, filte...

2018-08-31 23:37:20 1040

原创 Web广告--广告定向

广告定向广告再营销（重定向）效果很好的广告定向方式。再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等，而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。如到访再营销、搜索再营销、广告点击再营销等。简单的cookie（用于标示用户的ID）植入可以用于ret...

2018-08-27 21:14:16 1663

广告是互联网行业最清晰的一种商业模式，也是大数据时代被热捧的宠儿。计算广告学旨在找到“情境”、“用户”和“广告”之间的最佳匹配，它将计算理论和经济学结合在一起，涉及博弈论、自然语言处理、机器学习等多门学科的融合。斯坦福大学对计算广告学的描述是：“计算广告学是一个综合学科，涉及大规模搜索、文本分析、信息检索、统计建模、机器学习、分类、优化和微观经济学。计算广告的核心问题是要找到在给定的环境下，用...

2018-08-27 21:12:57 1107

原创广告学与在线广告

广告的目的与效果广告：由确定的出资人通过各种媒介进行有关产品的，通常是有偿的、有组织的、综合的、劝服性的非人员的信息传播活动。广告的主体：出资人、媒介、受众（三方的博弈）品牌广告：创造独特良好的品牌或产品形象，目的在于提升较长时期内的离线转化率效果广告：在短期内明确用户转化行为诉求的广告。广告 vs 推荐系统：广告：文字链好于图片推荐系统：图片好于文字链搜...

2018-08-27 21:11:53 743

原创文本处理—LSA、 LDA

几个流行的VSM算法：Term Frequency * Inverse Document Frequency, Tf-Idffrom gensim import corpora, models, similaritiesdictionary = corpora.Dictionary(texts)corpus = [dictionary.doc2bow(text) for te...

2018-08-27 13:07:45 3045

原创文本匹配（Text Matching）

文本匹配的价值与应用搜索：搜索词 &amp; 文档资源Query请求（Query补全、Query解析、需求理解） -&gt;资源召回（精准召回、核心召回、语义召回） -&gt;资源排序（CTR预估模型、CVR预估模型、相关性模型） -&gt;直达曝光（UI模板系统、分层实验系统、模拟召回平台） -&gt;用户点击 -&gt;商业计价（广告接入平台、关键词售卖、推荐系...

2018-08-24 20:42:07 3330

原创奇异值分解（Singular Value Decomposition, SVD）

提取信息的强大工具。简化数据、去除噪声、提高算法结果。利用SVD实现，我们能够用小得多的数据集来表示原始数据集。这样做，实际上是去除了噪声和冗余信息。SVD时一种强大的降维工具，可以利用SVD来逼近矩阵并从中提取重要特征，通过保留矩阵80%~90%的能量，就可以得到重要特征并去掉噪声。SVD的应用这里先介绍SVD可能的用途，下一节介绍SVD相关知识。隐语义索引SVD的历...

2018-08-24 20:37:20 1153

原创 Spark学习笔记（一）——Spark编程

Apache Spark是一个分布式计算框架，旨在简化运行于计算机集群上的并行程序的编写。Spark的前辈：MPI、MapReduce特性：迭代式计算、交互式探索、内存缓存计算Spark软件栈Spark Core：任务调度、内存管理、错误恢复、与存储系统交互，弹性分布式数据集（resilient distributed dataset, RDD）Spark SQL：可与Hi...

2018-08-24 20:34:14 647

原创 Softmax数值不稳定问题

数值计算上溢和下溢计算机通过有限数量的位模式来表示无限多的实数，总会引入一些近似误差。如果涉及时没有考虑最小化舍入误差的累积，在实践时可能会导致算法实效。下溢：当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时会表现出质的不同：避免零除避免取0的对数上溢：大量级的数被近似为无穷时发生上溢。必须对上溢和下溢进行数值稳定的一个例子...

2018-08-24 20:31:33 3991

原创机器学习中的正则化方法

参数范数惩罚L1 L2 regularization正则化一般具有如下形式：（结构风险最小化）其中，第一项是经验风险，第二项是正则化项，lambda>=0为调整两者之间关系的系数。正则化项可以取不同的形式，如参数向量w的L2范数：假设以平方差为损失函数，则优化目标为：minw∑i=1m(yi−wTxi)2+λ||w||22minw∑i=1m(yi−wTxi...

2018-08-24 19:05:25 1257

原创机器学习中的特征工程

真实中，往往会发现机器学习中最有趣的挑战往往会包含一些特征工程的内容。特征生成特征生成就是从各种角度和侧面来刻画事物。通过对问题的理解，构造一些特征希望机器学习算法可以采纳。特征与特征间的运算补集笛卡儿积交集加、减、乘、除运算特征选择从给定的特征集合中选出相关特征子集。特征选择过程要确保不丢失重要特征，去除冗余特征。包含两个环节：子集搜索、子集评价。理...

2018-08-24 13:32:32 660

原创机器学习中的参数估计方法

概率模型的训练过程就是参数估计（parameter estimation）的过程。对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学派（Frequentist）认为参数虽然未知，但却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值贝叶斯学派（Beyesian）则认为参数是未观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的...

2018-08-24 13:31:31 4098

原创机器学习中的优化问题

最优化问题：解析解存在：最优解可以由公式简单计算没有解析解数值计算启发式方法例：朴素贝叶斯、隐马尔可夫：最优解即极大似然估计值，可由概率计算公式直接计算感知机、逻辑回归、最大熵模型、条件随机场：利用梯度下降法、拟牛顿法等。无拘束最优化问题的解法。支持向量机：解凸二次规划的对偶问题。有序列最小最优化算法等。决策树：启发式算法。特征选择、生成、剪枝是启发式地进行正则化的...

2018-08-24 13:30:28 2829

原创机器学习中的性能度量

回归任务均方误差（Mean squared error, MSE）E(f;D) = \frac{1}{m} \sum_{i=1}^m(f(x_i)-y_i)^2均方根误差（Root-Mean-Squared-Error, RMSE）E(f;D) = \sqrt{\frac{1}{m} \sum_{i=1}^m(f(x_i)-y_i)^2} = \sqrt{MSE(\...

2018-08-24 13:25:30 605

原创机器学习中的损失函数

监督学习问题是在假设空间中选取模型作为决策函数，对于给定的输入X，由f(x)给出对应的输出Y，这个输出的预测值可能与真实值一致或不一致，可以用损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。0-1损失函数：f(x)={1,Y≠f(X)0,Y=f(X)f(x)={1,Y≠f(X)0,Y=f(X)f(x)=\left\{\b...

2018-08-24 13:22:38 627

原创 K均值算法（K-means）

K均值聚类容易实现，但是可能收敛到局部最小值，影响K-means效果的因素：K值的选择初始化质心距离度量优：只需要计算数据点与聚类中心的距离，其计算复杂度只有O(n)。缺：十分依赖于初始给定的聚类数目；同时随机初始化可能会生成不同的聚类效果，所以它缺乏重复性和连续性。伪代码：创建k个点作为起始质心（通常是随机选择）当任意一个点的簇分配结果发生改变时：对数据集...

2018-08-23 01:03:55 2512

原创聚类

聚类既能作为一个单独过程，用于寻找数据内在的分布结构，也可作为分类等其他学习任务的前驱过程。聚类算法涉及了2个基本问题——性能度量和距离计算（详见单独Blog）维度灾难在开始聚类前，先了解一个概念——维度灾难。高维的欧式空间具有一些非直观的有时被称为“维度灾难”的性质。非欧式空间也往往具有同样的反常情况。“灾难”的一个表现时，在高维空间下，几乎所有的点对之间的聚类都差不多相等。...

2018-08-23 01:03:01 1454

原创无监督学习

无监督学习只处理“特征”，不操作监督信号。大多数尝试是指从不需要人为注释的样本的分布中抽取信息，如密度估计、学习从分布中采样、学习从分布中去噪、寻找数据分布的流形、将数据中相关的样本聚类聚类KMeans降维主成分分析（PCA）奇异值分解（SVD）无监督深度学习自编码机（AutoEncoder）:自编码器和数据压缩算法背后的逻辑差不多，用一个子集...

2018-08-23 01:02:23 795

原创集成学习（Bagging、Boosting、Stacking）

组合多个学习器：集成方法（ensemble method）或元算法（meta-algorithm）。不同算法的集成（集成个体应“好而不同”）同一算法在不同设置的集成数据集不同部分分配给不同分类器之后的集成集成学习中需要有效地生成多样性大的个体学习器，需要多样性增强：对数据样本进行扰动（敏感：决策树、神经网络；不敏感：线性学习器、支持向量机、朴素贝叶斯、k近邻）对 ...

2018-08-23 01:01:20 7743 2

原创决策树算法（ID3、C4.5、CART）

决策树学习是由训练数据集估计条件概率模型，损失函数通常是正则化的极大似然函数，算法依据信息论来划分数据集。优势：数据形式非常好理解，计算复杂度不高，对缺失值不敏感，可以处理不相关特征缺点：容易过拟合专家系统中经常使用决策树伪代码：（递归函数，递归结束的条件：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。如果数据集已经处理了所有属性，但是类标签依然不是唯一...

2018-08-23 00:57:15 555

原创感知机 - 支持向量机

感知机1957年由Rosenblatt提出，是神经网络与支持向量机的基础。感知机是根据输入实例的特征向量x对其在进行二类分类的线性分类模型：f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)感知机模型对应于输入空间（特征空间）中的分离超平面wx+b=0感知机学习的策略是极小化损失函数：minw,bL(w,b)=−1...

2018-08-23 00:53:30 681

原创最大熵模型

最大熵原理最大熵原理是概率模型学习或估计的一个准则，最大熵原理认为在所有可能的概率模型（分布）的集合中，熵最大的模型就是最好的模型。熵：H(P)=−∑xP(x)logP(x)H(P)=−∑xP(x)logP(x)H(P) = - \sum_x P(x)logP(x) 满足：0≤H(P)≤log|X|0≤H(P)≤log|X|0 \le H(P) \le log|X...

2018-08-23 00:47:36 586

原创逻辑回归

逻辑回归（Logistic Regression）判别模型：我们只需要学习P(y|x)。让步比（odds ratio）：假设一个特征有0.9的概率属于类别1，P(y=1)=0.9。那让步比为：P(y=1)/P(y=0) = 0.9/0.1 = 9。让步比范围0到正无穷。取对数后将所有0到1之间的概率映射到负无穷到正无穷，更高的概率对应于更高的让步比对数。线性等式： yi=w0+w...

2018-08-23 00:45:28 1043

原创朴素贝叶斯算法

概率基础概率概率表示为0到1之间的数字，含义是某一事件或者预测行为的可信程度，1值表示“事件为真”的情形肯定发生，或表述为预测为真；而0值表示“事件为真”这一情形为假。条件概率条件概率是带有某些（前提条件）背景约束下的概率问题。P(A|B)=P(A,B)P(B)P(A|B)=P(A,B)P(B)P(A|B) = \frac{P(A,B)}{P(B)}联合...

2018-08-23 00:39:54 790

原创 Linear Regression及各种线型回归在正则化中的应用

Linear Regression线性回归：from sklearn.linear_model import LinearRegressionlr = LinearRegression(fit_intercept=True)lr.fit(x, y)p = map(lr.predict, x)e = p - ytotal_error = np.sum(e*e)rmse_tr...

2018-08-23 00:30:52 878

原创 Spring框架入门

Spring是一个开源的Java企业应用开发框架，它的目标是为了简化java应用开发，核心是一个IOC容器。Spring核心概念控制反转（Inversion of Control, IOC）依赖注入（Dependency Injection, DI）伪代码// 正常的程序Process P = new Process()Thread t = new Thread...

2018-08-22 18:41:27 413

原创 Java多线程

进程：具有一定独立功能的程序关于某个数据集合上的一次运行活动，是系统进行资源分配和调度的一个独立单位线程：进程的一个实体，是cpu分配调度的基本单位，代码的执行体。线程的状态图创建并使用线程学习方法：通过阅读jdk的Thread类注释线程的创建和使用实现thread & runnable误区： start not run线程名字通过Callable和Fu...

2018-08-22 18:40:52 417

原创 Java泛型、反射、注解、Lambda表达式

泛型介绍（使用频率高）泛型类型是通过类型参数化的泛型类或接口。通过类型参数化，来解决程序的通用性设计和实现的若干问题。泛型试图解决的问题：编译期类型检查：可以避免运行时错误的发生强制类型检查可读性和灵活性泛型本身就是对于继承在使用上的一种增强。编译器在编译源码时，首先进行泛型类型参数的检查，然后进行类型擦除并同时在类型参数出现的位置插入强制类型转换指令从而实现。...

2018-08-22 18:39:59 1062

原创 Java集合

数组大小类型固定、性能高效支持边界值检查length只能反映最大容量，不能反映使用的大小java.util.Arrays提供了fill、set、sort、binarySearch、equals、hashCode、toString、parallelPrefix、copyOf等方法CollectionListArrayList（*随机访问效率高）LinkedLis...

2018-08-22 18:39:03 447

原创 Java虚拟机

Java内存区域线程私有：程序计数器Java虚拟机栈本地方法栈线程共享：Java堆（对象实例及数组）方法区（类信息、常量、静态变量、即时编译器编译后的代码）垃圾回收对象存活判定算法：引用计数法：给对象中添加一个引用计数器，每当有一个地方引用它时，计数器就加1；当引用失效时，计数器就减1；任何时刻计数器为0的对象就是不可能再被使用的。（Pyth...

2018-08-22 18:38:01 388

Shingle_的博客