ZakeXu的专栏

专注机器学习

maven的使用

maven是一种项目对象模型(POM),是可以通过一小段描述信息来管理项目的构建,报告和文档的软件项目管理工具; (一)安装 1.官网下载并安装jdk; 2.官网下载mvn并直接解压; 3.设置环境变量; 4.cmd中输入mvn -version验证是否成功; (二)概念介绍 1.settings...

2016-06-24 10:54:39

阅读数 1229

评论数 0

scala笔记

(一)简介 1.编程模式:(1)交互式;(2)脚本式; 2.脚本以.scala结尾命名;运行脚本过程如下(先编译后执行): scalac test.scala scala test 3.一个简单的例子:HelloWorld.scala object HelloWorld { /* This...

2016-06-16 16:24:55

阅读数 1043

评论数 1

计算广告

(一)简介 1.广告主+变现平台+受众 2.广告分类: (1)品牌广告、直接效果广告; (2)横幅广告(banner)、文字链广告; (3)合约广告、搜索广告、竞价广告、程序化交易广告、原生广告; 3.计费方式术语: (1)CPM(cost per mille):按千次展示付费 (2)CPT(co...

2016-05-11 15:47:42

阅读数 1322

评论数 0

word2vec模型

(一)CBOW 1.模型图 (1)输入层是上下文若干个词的词向量; (2)隐藏层是词向量累加; (3)输出层是哈夫曼树,其中非叶子节点是类词向量,叶子节点是词向量(包括所有词); 2.模型函数 (1)

2016-05-10 11:06:55

阅读数 7507

评论数 2

统计语言模型

(一)简介 1.词向量传统表示: (1)One-hot Representation; (2)存在稀疏以及维度灾难的问题; (3)根据词向量无法判断词之间的相关性; 2.词向量近期表示: (1)Distributed representation;Word Representation;Word ...

2016-05-09 10:56:50

阅读数 1337

评论数 0

XGBoost模型

1.模型 (1)整体模型函数如下: 其中 k 表示树的数量,f 表示每棵树的预测函数; (2)截取到第 t 棵树的模型函数表示如下: 2.训练 (1)每次训练一棵树,目标函数如下:     其中第一项是损失函数,第二项是防止过拟合;N表示样本数,T表示所有树的叶子数目,t 表示训练第 ...

2016-04-28 20:33:37

阅读数 4666

评论数 0

正则表达式

(一)简介 1.正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等; 2.正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字符")组成的文字模式;模式描述在搜索文本时要匹配的...

2016-04-27 10:53:16

阅读数 471

评论数 0

基于Python的网络爬虫入门

1.网页抓取入门 (1)简单的抓取:直接从url抓网页数据 (2)传递数据:post或者get方式 post: 3 4 5 6 7 8 9 import urllib import urllib2   values = {"use...

2016-04-21 12:57:13

阅读数 1162

评论数 0

awk笔记

(一)简介 1.awk是一种处理文本文件的语言,是一个强大的文本分析工具。 2.常见用法 log.txt 2 this is a test 3 Are you like awk This's a test 10 There are orange,apple,mongo (1)用法一: awk '...

2016-04-20 20:28:51

阅读数 474

评论数 0

shell笔记

(一)简介 1.Shell有两种执行命令的方式: 交互式(Interactive):解释执行用户的命令,用户输入一条命令,Shell就解释执行一条。批处理(Batch):用户事先写一个Shell脚本(Script),其中有很多条命令,让Shell一次把这些命令执行完,而不必一条一条地敲命令。 2...

2016-04-20 17:43:59

阅读数 674

评论数 0

FM模型

(一)简介 1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于稀疏数据具有很好的学习能力; 2.FM模型与LR模型的区别在于引进了特征组合; (二)算法 1.线性回归模型:没有考虑特征分量之间的关系; 2.考虑特征分量之间关系的线性回...

2016-03-10 11:42:30

阅读数 11028

评论数 2

主题模型

(一)概念 1.LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构;所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语这样一个过程得到;...

2016-03-06 11:13:59

阅读数 4161

评论数 1

HOG

1、HOG特征:        方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤...

2016-03-06 09:43:44

阅读数 638

评论数 0

海量数据处理

在处理海量数据时,遇到的主要问题有两个: (1)时间问题:如何在短时间内高效地处理数据,一般是采用巧妙的算法搭配合适的数据结构; (2)空间问题:如何在有限的内存中处理海量数据,一般是采用分而治之的思想,将海量数据划分为小份的数据; (一)分而治之+统计+排序 1.分而治之 (1)一般是采用has...

2016-02-26 17:41:34

阅读数 533

评论数 2

推荐系统

(一)概念 1.协同过滤(Collaborative Filtering,CF)是现今推荐系统中应用最为成熟的一个推荐算法,它利用兴趣相投、拥有共同经验之群体的喜好来推荐使用者感兴趣的资讯,个人透过合作的机制给予资讯相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选资讯; 2.常...

2016-02-24 20:58:56

阅读数 3355

评论数 1

优化理论

(一)梯度下降算法(最速下降法) 1.梯度下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢; 2.梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值); 3.迭代公式为    ,其中    代表梯度负方向,    表示梯度方向上的搜...

2016-02-23 16:27:04

阅读数 1079

评论数 1

GMM模型

(一)高斯判别分析模型(Gaussian discriminant analysis,GDA) 1.GDA模型是服从高斯分布的生成模型: (1)假设每个类别的样本数据服从多元高斯分布: (2)现在假设样本值为多维连续变量,讨论二分类问题,那么分别对两个类别的样本进行高斯建模(使用同一个协方差矩...

2016-02-20 17:20:59

阅读数 2591

评论数 0

HMM模型

(一)基本概念 1.隐马尔科夫模型(Hidden Markov Model,HMM):关于时序的概率模型;描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程; (1)状态序列:HMM生成的状态的序列,称为状态序列; (2)观测序列:每个状态生...

2016-02-19 14:17:18

阅读数 1893

评论数 1

基于MATLAB与C++的混合编程

1.Matlab是当前应用最为广泛的数学软件,具有强大的数值计算、数据分析处理、系统分析、图形显示甚至符号运算等功能。利用这一完整的数学平台,用户可以快速实现十分复杂的功能,极大地提高工程分析计算的效率。但与其他高级程序相比,Matlab程序是一种解释执行程序,不用编译等预处理,程序运行速度较慢。...

2016-02-07 12:55:06

阅读数 1556

评论数 0

算法设计思想

(一)分治算法 1.基本思想:将一个规模为N的问题分解为K个规模较小的子问题,这些子问题相互独立且与原问题性质相同;求出子问题的解,就可得到原问题的解 2.例子:快速排序算法 (二)动态规划算法 1.基本思想: (1)与分治法类似,也是将待求解的问题分解为若干个子问题,按顺序求解子问题,前一子问题...

2016-02-06 21:15:44

阅读数 1996

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭