机器学习
文章平均质量分 69
刚搬完砖
公众号: 刚搬完砖
搬砖之后,关于自然语言处理技术/推荐技术的一些总结与思考
展开
-
在pytorch中load超大训练数据
在pytorch中load超大训练数据by joeyqzhou相关代码地址: https://github.com/joeyqzhou/blog/tree/master/pytorch%E4%B8%ADload%E8%B6%85%E5%A4%A7%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE最简单方式:1 单线程获取数据到内存中2 train的过程 for epoch in range(num_epochs): for i in range(i原创 2020-12-21 20:22:46 · 2359 阅读 · 1 评论 -
神经网络检索方法与一种结合local和distributed文本相似度算法
神经网络检索方法与一种结合local和distributed文本相似度算法by joeyqzhou基于频次的信息检索方法信息检索(IR), 简单说,就是给一个query, 返回与其最相关的doc. 传统的IR方法有tfidf, BM25, 它们主要考虑的是query中词语的确定性匹配(不能匹配到类似词)。即词在某篇候选doc中出现的次数(term frequency)和在所有doc中出现...原创 2020-03-27 17:58:21 · 822 阅读 · 0 评论 -
tensorflow批量直方图快速计算
最近在实现DRRM, 计算直方图,官方的api, tf.histogram_fixed_width不支持批量的直方图计算在网上搜了一些方法,https://stackoverflow.com/questions/41764199/row-wise-histogram/,但是运算速度都比较慢,我自己想了一种,根据连续值转整型的方法,来进行批量计算直方图。tensor: 是输入的tensorn...原创 2020-03-22 18:08:25 · 867 阅读 · 0 评论 -
如何搭建tensorflow serving
这两天学习如何搭建tf.serving,就此总结一下.1 安装、学习dockertf.serving的运行环境比较繁琐,在这个环境配好了,另一个不行。docker解决了这个问题。官方文档中也推荐使用docker2 参考tf.serving github README# Download the TensorFlow Serving Docker image and repodocker ...原创 2019-08-17 22:28:57 · 488 阅读 · 0 评论 -
机器学习: ensemble learning
机器学习: ensemble learningensemble learning即把多个模型综合成一个模型。这样往往能达到不错的效果。原因为: 不同的模型可能采用了不同的数据、或对数据的刻画方式角度不一样;直觉上讲,如果一个问题从多个角度去看,那么效果往往会比从单角度看效果更好。各种ensemble的方法,据说在kaggle比赛中也有明显的效果ensemble的方式大致分几类:baggin...原创 2018-12-16 16:09:53 · 325 阅读 · 0 评论 -
Spark中分布式使用HanLP(1.7.0)分词d
Spark中分布式使用HanLP(1.7.0)分词HanLP分词(https://github.com/hankcs/HanLP),如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典".本人一些经验:是直接"java xf hanlp-1.6.8-sources.jar" 解压源码,把源码加入工程(依赖本地jar包,有些麻...原创 2018-12-01 17:27:27 · 2060 阅读 · 4 评论 -
机器学习算法之:指数族分布与广义线性模型
> 翻译总结By joey周琦参考NG的lecture note1 part3 本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。指数族分布指数族分布 (The exponential family dist...原创 2015-09-03 20:45:50 · 15477 阅读 · 6 评论 -
机器学习_论文笔记_1: A few useful things to know about machine learning
by joey周琦希望把自己阅读到的,觉得有营养的论文,总结笔记和自己想法,留给自己,也分享给大家。因为英文论文中一些专有,有难度的词句,会给出英文原文。这篇文章总结了有关机器学习的12条重要,简单,明了的经验。本文面对分类问题总结,但不限于分类问题。学习=模型+评估+优化 Learning = representation + evaluation + optimization。repr原创 2015-09-06 13:34:54 · 2415 阅读 · 1 评论 -
机器学习_论文笔记_2: bagging predictors ( BREIMAN[1996])
By joey周琦Bagging predictor可以产生多个版本的predictor, 并把这些predictor聚集(aggregate)为一个。这种策略对于不稳定的系统可以提高其精度。有一个学习数据集LL,包含数据(yn,xn),n=1,…,N{(y_n,x_n),n=1,\dots,N},其中xx为输入向量,yy或者为一个类(分类问题)或者数值(回归问题)。我们可以从数据集LL中学到一个原创 2015-09-07 16:17:39 · 2657 阅读 · 0 评论 -
机器学习算法之: 逻辑回归 logistic regression (LR)
by joey周琦逻辑回归属于probabilistic discriminative model这一类的分类算法。probabilistic discriminative mode这类算法的思路如下: - 直接建模P(Ck|x)P(C_k|x) - 利用最大似然估计和训练数据,估计出模型中的参数该类想法相对于生成模型(probabilistic generated model) 有参数较原创 2015-08-29 23:43:33 · 1599 阅读 · 0 评论 -
机器学习概念:最大后验概率估计与最大似然估计 (Maximum posterior probability and maximum likelihood estimation)
joey 周琦假设有参数θ\theta, 观测x\mathbf{x}, 设f(x|θ)f(x|\theta)是变量xx的采样分布,θ\theta是其中的参数。那么θ\theta的最大似然估计可以表示为: θ̂ ML(x)=argmaxθf(x|θ) \hat \theta_{ML}(x) = \arg \max \limits_{\theta} f(x|\theta)而贝叶斯理论,假设θ\the原创 2015-11-25 18:01:31 · 1585 阅读 · 0 评论 -
高效相似度计算 LSH minHash simHash的学习
相似度计算:1 局部敏感哈希2 minHash3 simHash原创 2015-11-06 16:52:52 · 9283 阅读 · 1 评论 -
机器学习算法之正则化
>By joey周琦正则化假设目标函数为JJ, 比如JJ可以是对数似然函数的负数形式,特征ii的系数为wiw_i, 系数向量 w=[w1,...,wK] w = [w_1,...,w_K] ,假设一共有KK个备选类。 机器学习(分类为例)的目标就是要解决一个优化问题 w=argminwL(w) w = \arg \min \limits_w L(w) 而为了避免模型的过拟合(overfitti原创 2015-11-17 15:46:43 · 4098 阅读 · 0 评论 -
机器学习算法之:决策树 (decision trees)
> By joey周琦概述线性模型一般variance小,bias大;而树模型一般variance大,bias小决策树的优点:具有可读性,分类速度快一般包含三个步骤: 特征选择决策树生成剪枝决策树定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。结点分为内部结点和叶结点,内部结点表示一个特征(feature),原创 2015-10-20 19:16:40 · 3006 阅读 · 0 评论 -
kaggle比赛练习_1: 做的什么菜?(What's Cooking?)
Kaggle简介Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/。企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,原创 2015-09-25 17:54:10 · 4300 阅读 · 2 评论 -
推荐系统综述与代码
推荐系统综述与代码 By Joey周琦引言与符号介绍一般来说,推荐系统可以归纳为,预测user对某item的评分或者点击率。问题描述如下user对item的互动,主要可以分为下面三个方面:scalar. (numerical(rating),ordinal). 标量的binary. (like,dislike) 二项的,0 or 1, 点or不点等unary. (purchase,on原创 2015-09-21 12:58:55 · 2360 阅读 · 0 评论 -
Dummy variable (变量dummy化)
总是可以从身边同学口中听到说到dummy化,dummy lr, 今天自己看了dummy variable的wiki,这里记下笔记总结:dummy variable是用0或1表示某个类别是否出现为什么要dummy化 若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比原创 2015-09-26 21:21:42 · 38936 阅读 · 1 评论 -
机器学习算法之:分类算法概述
By joey周琦常见的分类算法大致可以分为三类:直接给一个discriminant function,直接确定输入feature x的属于哪一类。这类算法有SVMprobabilistic discriminative model.该类方法直接给P(Ck | x)建模, Ck表示第k类。该类算法有logistic regressionprobabilistic generated mode原创 2015-08-29 20:53:08 · 757 阅读 · 0 评论