joey周琦

work for fun

机器学习: ensemble learning

机器学习: ensemble learning ensemble learning即把多个模型综合成一个模型。这样往往能达到不错的效果。原因为: 不同的模型可能采用了不同的数据、或对数据的刻画方式角度不一样;直觉上讲,如果一个问题从多个角度去看,那么效果往往会比从单角度看效果更好。 各种ensem...

2018-12-16 16:09:53

阅读数:7

评论数:0

Spark中分布式使用HanLP(1.7.0)分词d

Spark中分布式使用HanLP(1.7.0)分词 HanLP分词(https://github.com/hankcs/HanLP),如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典". 本人一些经验: 是直...

2018-12-01 17:27:27

阅读数:123

评论数:0

机器学习概念:最大后验概率估计与最大似然估计 (Maximum posterior probability and maximum likelihood estimation)

joey 周琦 假设有参数θ\theta, 观测x\mathbf{x}, 设f(x|θ)f(x|\theta)是变量xx的采样分布,θ\theta是其中的参数。那么θ\theta的最大似然估计可以表示为: θ̂ ML(x)=argmaxθf(x|θ) \hat \theta_{ML}(x) = ...

2015-11-25 18:01:31

阅读数:939

评论数:0

机器学习算法之正则化

>By joey周琦 正则化假设目标函数为JJ, 比如JJ可以是对数似然函数的负数形式,特征ii的系数为wiw_i, 系数向量 w=[w1,...,wK] w = [w_1,...,w_K] ,假设一共有KK个备选类。 机器学习(分类为例)的目标就是要解决一个优化问题 w=argminw...

2015-11-17 15:46:43

阅读数:2571

评论数:0

高效相似度计算 LSH minHash simHash的学习

相似度计算: 1 局部敏感哈希 2 minHash 3 simHash

2015-11-06 16:52:52

阅读数:4668

评论数:1

机器学习算法之:决策树 (decision trees)

> By joey周琦 概述 线性模型一般variance小,bias大;而树模型一般variance大,bias小 决策树的优点:具有可读性,分类速度快 一般包含三个步骤: 特征选择 决策树生成 剪枝 决策树定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)...

2015-10-20 19:16:40

阅读数:2118

评论数:0

Dummy variable (变量dummy化)

总是可以从身边同学口中听到说到dummy化,dummy lr, 今天自己看了dummy variable的wiki,这里记下笔记总结: dummy variable是用0或1表示某个类别是否出现 为什么要dummy化 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的...

2015-09-26 21:21:42

阅读数:10420

评论数:0

kaggle比赛练习_1: 做的什么菜?(What's Cooking?)

Kaggle简介Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/。企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数...

2015-09-25 17:54:10

阅读数:3049

评论数:2

推荐系统综述与代码

推荐系统综述与代码 By Joey周琦 引言与符号介绍一般来说,推荐系统可以归纳为,预测user对某item的评分或者点击率。问题描述如下user对item的互动,主要可以分为下面三个方面: scalar. (numerical(rating),ordinal). 标量的 binary. (l...

2015-09-21 12:58:55

阅读数:1655

评论数:0

机器学习_论文笔记_2: bagging predictors ( BREIMAN[1996])

By joey周琦 Bagging predictor可以产生多个版本的predictor, 并把这些predictor聚集(aggregate)为一个。这种策略对于不稳定的系统可以提高其精度。有一个学习数据集LL,包含数据(yn,xn),n=1,…,N{(y_n,x_n),n=1,\dots,N...

2015-09-07 16:17:39

阅读数:1080

评论数:0

机器学习_论文笔记_1: A few useful things to know about machine learning

by joey周琦 希望把自己阅读到的,觉得有营养的论文,总结笔记和自己想法,留给自己,也分享给大家。因为英文论文中一些专有,有难度的词句,会给出英文原文。这篇文章总结了有关机器学习的12条重要,简单,明了的经验。本文面对分类问题总结,但不限于分类问题。 学习=模型+评估+优化 Learni...

2015-09-06 13:34:54

阅读数:969

评论数:0

机器学习算法之:指数族分布与广义线性模型

> 翻译总结By joey周琦 参考NG的lecture note1 part3 本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic reg...

2015-09-03 20:45:50

阅读数:9994

评论数:5

机器学习算法之: 逻辑回归 logistic regression (LR)

by joey周琦 逻辑回归属于probabilistic discriminative model这一类的分类算法。probabilistic discriminative mode这类算法的思路如下: - 直接建模P(Ck|x)P(C_k|x) - 利用最大似然估计和训练数据,估计出模...

2015-08-29 23:43:33

阅读数:1183

评论数:0

机器学习算法之:分类算法概述

By joey周琦 常见的分类算法大致可以分为三类: 直接给一个discriminant function,直接确定输入feature x的属于哪一类。这类算法有SVM probabilistic discriminative model.该类方法直接给P(Ck | x)建模, Ck表示第k类。该...

2015-08-29 20:53:08

阅读数:445

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭