zakexu-CSDN博客

原创 maven的使用

maven是一种项目对象模型(POM)，是可以通过一小段描述信息来管理项目的构建，报告和文档的软件项目管理工具；（一）安装1.官网下载并安装jdk；2.官网下载mvn并直接解压；3.设置环境变量；4.cmd中输入mvn -version验证是否成功；（二）概念介绍1.settings文件（1）解压后的mvn目录下的conf文件下有一个settings.xml文件；

2016-06-24 10:54:39 1667

原创 scala笔记

（一）简介1.编程模式：（1）交互式；（2）脚本式；2.脚本以.scala结尾命名；运行脚本过程如下（先编译后执行）：scalac test.scalascala test3.一个简单的例子：HelloWorld.scalaobject HelloWorld { /* This is my first scala program. * This wil

2016-06-16 16:24:55 1548

原创计算广告

（一）简介1.广告主+变现平台+受众2.广告分类：（1）品牌广告、直接效果广告；（2）横幅广告（banner）、文字链广告；（3）合约广告、搜索广告、竞价广告、程序化交易广告、原生广告；3.计费方式术语：（1）CPM（cost per mille）：按千次展示付费（2）CPT（cost per time）：按时长付费（3）CPC（cost per click）：

2016-05-11 15:47:42 1938

原创 word2vec模型

（一）简介1、传统的词向量一般用one-hot表示，通常面临两个问题：（1）高维稀疏的向量带来计算成本；（2）不同的词向量彼此正交，无法衡量词之间的相似度。而distributed representation通过训练，可以得到每个词的低维稠密向量，不仅计算成本低，而且可以通过向量的距离计算来表示词与词之间的相似度。word2vector就是一个将词进行低维稠密向量化的工具。2、wor...

2016-05-10 11:06:55 16081 1

原创统计语言模型

（一）简介1.词向量传统表示：（1）One-hot Representation；（2）存在稀疏以及维度灾难的问题；（3）根据词向量无法判断词之间的相关性；2.词向量近期表示：（1）Distributed representation；Word Representation；Word Embedding；（2）低维实数向量；（3）词义相似可以用空间距离来表示；3

2016-05-09 10:56:50 2191

原创 XGBoost模型

1.模型（1）整体模型函数如下：其中 k 表示树的数量，f 表示每棵树的预测函数；（2）截取到第 t 棵树的模型函数表示如下：2.训练（1）每次训练一棵树，目标函数如下：其中第一项是损失函数，第二项是防止过拟合；N表示样本数，T表示所有树的叶子数目，t 表示训练第 t 棵树，w 表示叶子的输出值；（2）泰勒展开（二阶展开）：

2016-04-28 20:33:37 6781

原创正则表达式

（一）简介1.正则表达式描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等；2.正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为"元字符"）组成的文字模式；模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板，将某个字符模式与所搜索的字符串进行匹配；（二）常见字符定义：1.非打印字

2016-04-27 10:53:16 687

原创基于Python的网络爬虫入门

1.网页抓取入门（1）简单的抓取：直接从url抓网页数据（2）传递数据：post或者get方式post：3456789importurllibimporturllib2 values={"username":"1

2016-04-21 12:57:13 1600

原创 awk笔记

（一）简介1.awk是一种处理文本文件的语言，是一个强大的文本分析工具。2.常见用法log.txt2 this is a test3 Are you like awkThis's a test10 There are orange,apple,mongo（1）用法一：awk '{[pattern] action}' {filenames} # '' 只能用单引

2016-04-20 20:28:51 710

原创 shell笔记

（一）简介1.Shell有两种执行命令的方式：交互式（Interactive）：解释执行用户的命令，用户输入一条命令，Shell就解释执行一条。批处理（Batch）：用户事先写一个Shell脚本(Script)，其中有很多条命令，让Shell一次把这些命令执行完，而不必一条一条地敲命令。2.一个简单的例子#!/bin/bashecho "What is your name?"

2016-04-20 17:43:59 968

原创 FM模型

（一）简介1.FM（factorization machine）模型是一种基于矩阵分解的机器学习模型，对于稀疏数据具有很好的学习能力；2.FM模型与LR模型的区别在于引进了特征组合；（二）算法1.线性回归模型：没有考虑特征分量之间的关系；2.考虑特征分量之间关系的线性回归模型：若样本特征为高度稀疏，那么不能对wij参数进行估计，绝大部分为0；3.FM模型：引入辅

2016-03-10 11:42:30 13714

原创主题模型

（一）概念1.LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构；所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语这样一个过程得到；文档到主题服从多项式分布，主题到词服从多项式分布；2.LDA是一种非监督机器学习技术，可以用

2016-03-06 11:13:59 11405 1

转载 HOG

1、HOG特征：方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究人员Dalal

2016-03-06 09:43:44 927

原创海量数据处理

在处理海量数据时，遇到的主要问题有两个：（1）时间问题：如何在短时间内高效地处理数据，一般是采用巧妙的算法搭配合适的数据结构；（2）空间问题：如何在有限的内存中处理海量数据，一般是采用分而治之的思想，将海量数据划分为小份的数据；（一）分而治之+统计+排序1.分而治之（1）一般是采用hash映射的方法，将海量数据划分为若干小份量的数据；（2）常见做法：hash（X）%N；其中

2016-02-26 17:41:34 840

原创推荐系统

（一）概念1.协同过滤（Collaborative Filtering，CF）是现今推荐系统中应用最为成熟的一个推荐算法，它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯，个人透过合作的机制给予资讯相当程度的回应（如评分）并记录下来以达到过滤的目的进而帮助别人筛选资讯；2.常见的协同过滤算法（CF）：（1）基于用户的协同过滤（user-based CF）（2）基

2016-02-24 20:58:56 5512

原创优化理论

（一）梯度下降算法（最速下降法）1.梯度下降法是用负梯度方向为搜索方向的，最速下降法越接近目标值，步长越小，前进越慢；2.梯度下降法的计算过程就是沿梯度下降的方向求解极小值（也可以沿梯度上升方向求解极大值）；3.迭代公式为 ,其中代表梯度负方向，表示梯度方向上的搜索步长；（二）牛顿法（1）牛顿法最初是用来求解函数零值点位置的

2016-02-23 16:27:04 1727

原创 GMM模型

（一）高斯判别分析模型（Gaussian discriminant analysis，GDA）1.GDA模型是服从高斯分布的生成模型：（1）假设每个类别的样本数据服从多元高斯分布：（2）现在假设样本值为多维连续变量，讨论二分类问题，那么分别对两个类别的样本进行高斯建模（使用同一个协方差矩阵）：那么概率分布如下：2.似然函数如下：3.参数的极大似然

2016-02-20 17:20:59 5438

原创 HMM模型

（一）基本概念1.隐马尔科夫模型（Hidden Markov Model，HMM）：关于时序的概率模型；描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程；（1）状态序列：HMM生成的状态的序列，称为状态序列；（2）观测序列：每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列；（3）序列的每一个位置又可以看作是一个...

2016-02-19 14:17:18 3362

1.Matlab是当前应用最为广泛的数学软件，具有强大的数值计算、数据分析处理、系统分析、图形显示甚至符号运算等功能。利用这一完整的数学平台，用户可以快速实现十分复杂的功能，极大地提高工程分析计算的效率。但与其他高级程序相比，Matlab程序是一种解释执行程序，不用编译等预处理，程序运行速度较慢。C/C++语言是目前最为流行的高级程序设计语言之一。它可对操作系统和应用程序以及硬件进行直接操作，用C

2016-02-07 12:55:06 2050

原创算法设计思想

（一）分治算法1.基本思想：将一个规模为N的问题分解为K个规模较小的子问题，这些子问题相互独立且与原问题性质相同；求出子问题的解，就可得到原问题的解2.例子：快速排序算法（二）动态规划算法1.基本思想：（1）与分治法类似，也是将待求解的问题分解为若干个子问题，按顺序求解子问题，前一子问题的解，为后一子问题的求解提供了有用的信息；依次解决各子问题，最后一个子问题就是初始问题的解

2016-02-06 21:15:44 5401

原创排序算法

（一）冒泡排序算法1.

2016-02-06 20:43:21 828

原创查找算法

1.静态查找表：只做查找操作的查找表2.动态查找表：在查找过程中同时插入查找表中不存在的数据元素，或者从查找表中删除已经存在的某个数据元素（一）顺序查找算法1.顺序查找，又叫线性查找，是最基本的查找技术，它的查找过程是：从表中第一个（或最后一个）记录开始，逐个进行记录的关键字和给定值比较，若某个记录的关键字和给定值相等，则查找成功，找到所查的记录；如果直到最后一个（或第一个）记录，其关

2016-02-06 15:42:44 1562

原创图

（一）基本概念1.无向图：（vi，vj）2.有向图：3.无向完全图：在无相图中，如果任意两个顶点之间都存在边，则称为无向完全图4.有向完全图：在有相图中，如果任意两个顶点之间都存在方向互为相反的边，则称为有向完全图5.子图6.网：带权的图称为网7.连通图：任意两个顶点都是连通的无向图称为连通图8.强连通图：任意两个顶点都是连通的有向图称为

2016-02-05 16:32:41 1426

原创树

（一）基本概念1.子树：子树一定是互不相交的2.结点分类3.结点关系4.深度PS：若将树中结点的各子树看成从左到右是有次序的，不能互换的，则称该树为有序树，否则称为无序树（二）存储结构1.双亲表示法：以顺序存储结构来存储树的结点，同时在每个结点中，附设一个指示器指示其双亲结点在数组中的位置2.孩子表示法：把每个结点的孩

2016-02-03 21:30:55 921

原创字符串

（一）常识1.ASCII编码：8位二进制数表示一个字符2.Unicode编码：16位二进制数表示一个字符3.为了和ASCII码兼容，Unicode的前256个字符与ASCII码完全相同4.字符串的大小比较是通过组成串的字符之间的编码来进行的（二）朴素的模式匹配算法1.算法：对主串的每一个字符作为子串开头，与要匹配的字符串进行匹配；对主串做大循环，每个字符开头做T的长度的小循

2016-02-03 13:21:31 740

原创栈和队列

栈是限定仅在表尾进行插入和删除操作的线性表（一）概念1.允许插入和删除的一端称为栈顶，另一端称为栈底2.栈又称为后进先出的线性表3.栈的插入操作，叫做进栈4.栈的删除操作，叫做出栈（二）顺序存储结构——顺序栈1.下标为0的一端作为栈底2.两栈共享空间：让一个栈的栈底作为数组的始端，即下标为0处，另一个栈的栈底为数组的末端，即下标为数组长度n-1处（三）链式存储结

2016-01-31 19:26:52 746

原创线性表

线性表：零个或者多个具有相同类型的数据元素的有限序列（一）顺序存储结构——顺序表1.实现：C语言的一维数组可以实现线性表的顺序存储结构（1）线性表的下标从1开始，数组的下标从0开始（2）在任意时刻，线性表的长度应该小于等于数组的长度2.常见操作（1）查找：依据数组下标进行查找，时间复杂度为O（1）（2）插入：插入位置之后的元素依次往后移动一个位置，时间复杂度为O（n）

2016-01-30 16:58:20 658

原创基本概念

程序设计 = 数据结构 + 算法1.数据结构：是相互之间存在一种或者多种特定关系的数据元素的集合（1）逻辑结构：集合结构，线性结构，树形结构，图形结构（2）物理结构：顺序存储结构，链式存储结构（3）逻辑结构是面向问题的，物理结构是面向计算机的2.算法：解决特定问题求解步骤的描述（1）设计算法应该尽量满足时间效率高和存储量低的需求（2）算法的渐近时间复杂度，简称为时间复杂

2016-01-30 15:09:44 656

原创 GBDT模型

（一）简介1.以决策树作为基函数的提升方法称为提升树；提升树利用加法模型与前向分步算法实现学习的优化过程；当损失函数是平方损失和指数损失函数时，每一步的优化是很简单的，但对一般损失函数而言，往往每一步优化并不简单，这里使用梯度提升（gradient boosting）算法；（二）

2015-12-28 12:40:19 4999

原创 RF模型

（一）简介1.随机森林(random forests，RF)，指的是利用多棵树对样本进行训练并预测的一种分类器；该分类器最早由Leo Breiman和Adele Cutler提出，并被注册成了商标；简单来说，随机森林就是由多棵CART（Classification And Regression Tree）构成的；2.随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成

2015-12-25 18:56:17 7432

原创基于ODPS的MR开发

1.前期准备：（1）安装好jdk，jre，maven并设置好环境变量；打开cmd检测是否安装成功：（2）下载并安装eclipse以及maven插件（M2Eclipse）；2.添加远程repository：（1）在Eclipse中依次点击 Window->Preferences -> Maven -> Arthetypes ，在打开的对话框中点击 Add Remote Cat

2015-11-04 14:03:48 4454

原创 TF-IDF

1.TF-IDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)；2.词频（term frequency，TF）：指在一份给定的文件里某一个给定的词语在该文件中出现的频率；这个数字是对词数(term count)的归一化，以防止它偏向长的文件；（同一个词语在长文件里可能会比短文件有更高的词数，而

2015-10-26 16:09:35 1111

原创基于ODPS的SQL语句

本博文主要是介绍阿里ODPS（Open Data Processing Service）平台上的SQL语言的入门；（一）基本概念1.ODPS SQL适用于海量数据(TB级别)，实时性要求不高的场合，它的每个作业的准备，提交等阶段要花费较长时间，因此要求每秒处理几千至数万笔事务的业务是不能用ODPS SQL完成的；ODPS SQL采用的是类似于SQL的语法，可以看作是标准SQL的子集，但不

2015-09-30 16:17:47 34395

原创 git工具

Git是一款免费、开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目；BitBucket 是一家源代码托管网站，采用Mercurial和Git作为分布式版本控制系统，同时提供商业计划和免费账户；主要特点是可以建立私有仓库；（一）建立远程私有仓库（二）本地git操作1.安装git（比较简单，这里不详细介绍）2.选择一个文件夹作为本地仓库，初始化：初

2015-09-21 21:44:05 1203

原创 CTC模型

CTC模型（Connectionist temporal classification）接在RNN网络的最后一层用于序列学习所用；对于一段长度为T的序列来说，每个样本点 t 在RNN网络的最后一层都会输出一个softmax向量，表示预测概率；接上CTC模型之后，就可以正确预测出序列的标签；（一）简介1.假设一段长为T的序列的每个时间点的label有可能是L个不同的label中的一个，那么这

2015-09-17 20:10:53 22056

原创 MDRNN模型

标准的RNN模型由于加入递归连接，使得其可以利用上下文信息从而对时间维度上的扭曲具有鲁棒性；然而RNN仅适用于一维序列，也就是时间维序列；而在二维序列中，同样需要利用上下文信息以及对维度扭曲的鲁棒性，因此MDRNN模型（multi-dimensional RNN）被提出；（一）MDRNN模型思想1.标准RNN的每一层隐层不仅接受当前位置的输入，也接受上一个位置的隐层输出作为输入；在标准的R

2015-09-17 16:52:49 3388

原创 LSTM模型

（一）NN模型（neural network）1.NN模型是复杂神经网络模型的基础计算单元，广泛使用于各种神经网络模型中，如下所示：2.NN模型常见的激活函数主要有3种：sigmoid函数，tanh函数，以及ReLU（rectified linear unit）函数，分别如下：3.NN模型若放在输出层，不同的任务使用不同的激活函数：（1）multi-class：使用

2015-09-17 15:53:11 33675 2

原创 RNN模型

（一）RNN模型1.递归神经网络（recurrent neural network，RNN）是一种具有反馈结构的神经网络，其输出不但与当前输入和网络的权值有关，而且也与之前网络的输入有关；RNN通过添加跨越时间点的自连接隐藏层，对时间进行建模；换句话说，隐藏层的反馈，不仅仅进入输出端，而且还进入了下一时间的隐藏层；

2015-09-15 12:31:53 17178

原创 caffe入门教程

（一）简介1.caffe是一个清晰而高效的深度学习框架，纯粹的C++/CUDA架构，支持命令行、Python和MATLAB接口，可以在CPU和GPU直接无缝切换；2.caffe的主要优势：（1）CPU与GPU的无缝切换；（2）模型与优化都是通过配置文件来设置，无需代码；3.caffe的下载与安装：（1）下载（2）安装（3）caffe的下载与安装以及一些基本的介绍官网

2015-09-02 11:14:59 49396

原创霍夫变换

1.霍夫变换(Hough Transform) 是从图像中识别几何形状的基本方法之一；最基本的霍夫变换是从黑白图像中检测直线；2.原理：（1）设已知一黑白图像上画了一条直线，直线的方程可以用y=k*x+b 来表示，其中k和b是参数，分别是斜率和截距；（2）过某一点(x0,y0)的所有直线的参数都会满足方程y0=kx0+b，即点(x0,y0)确定了一组直线；（3）方程y0=kx0+b

2015-08-26 20:16:28 1520

空空如也

空空如也