机器学习
sheldonwong
这个作者很懒,什么都没留下…
展开
-
机器学习-关于推荐的一点思考
推荐系统的目标是在什么时间,什么地点,用户想看到什么。 推荐的过程大概就是recall、rank但是细节会很多,比如recall具体来说怎么做?recall依赖那些东西(特征,统计量),需要为这些统计量做一个服务。rank具体会用到哪些特征?模拟一下数据流程某用户在app端下拉,请求20条新数据1. 后端收到请求,开始从候选池里面recall,候选池肯定不能是全量数...原创 2018-09-14 22:31:51 · 191 阅读 · 0 评论 -
机器学习-NLP
最近做了些关于NLP中文本分类的工作,记录一下相关知识。1. Representation - 文本的表示Word Representation-词的表示one hot:首先根据语料库corpus构建词典,假设词典长度为T,那么那么每个词就可以用一个one hot向量表示。word2vec:把一个词映射成一个M维向量,可以用来处理相似度,分类等问题Text Representa...原创 2018-08-24 16:44:35 · 1180 阅读 · 0 评论 -
机器学习-PCA
协方差矩阵计算 总结一下PCA的算法步骤:设有m条n维数据。1)将原始数据按列组成n行m列矩阵X2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值3)求出协方差矩阵C=1mXX转载 2018-08-23 16:39:23 · 123 阅读 · 0 评论 -
机器学习2-推荐系统
问题TopKCTR 步骤FeatureRecall基于热度,基于用户兴趣标签,基于CF,基于FMSortLR,GBDT,GBDT+LR,FM,DNNAD 评价指标Accuracy:预测正确的样本/总样本Precision:预测为正类正确的样本数/预测为正类的样本数Recall:预测为正类正确的样本/实际为正类的样本F1:P和R的调和均...原创 2018-08-23 10:37:13 · 251 阅读 · 0 评论 -
机器学习1-简介
问题 步骤1. 准备数据(数据探索)2. 分析问题(分类,回归,聚类)3. 特征工程(特征选择,新特征构建,特征降维)这里的特征其实表示,例如用Bow表示一段文本,用TFIDF表示文本,用若干属性构成的向量表示心脏病(特征)低维结构化数据:传统的机器学习分类问题,维度一般很低,可以全部feed给模型。高维结构化数据:非结构化数据:比如文本,通过BOW后会变成高维...原创 2018-08-23 10:25:55 · 179 阅读 · 0 评论 -
机器学习1-朴素贝叶斯
1. 算法计算先验概率P(Y=ck)计算条件概率P(Xi=xi|Y=ck)对于给定的实例计算后验概率P(Y=ck)P(xi=xi|Y=ck),取后验概率最大的作为实例的分类2. 例子数据集 123456789101112131415X1111112222233333X2SMMSSSMMLLLMMLLY-1-111-1-1-11111111-13. 原理假设已知特征向量X=x,要求这个特征对应的类别...原创 2018-04-07 00:20:37 · 205 阅读 · 0 评论 -
决策树
1. 决策树的生成过程输入:训练集D,特征集A,阈值e输出:决策树Tif 遇到终止条件(D中所有样例的类别均为Ck,A=∅) return 类别标签else: 根据公式计算信息增益,选择信息增益最大的作为最优特征Ag 如果信息增益小于阈值e,在训练集D中进行投票,决定当前节点的类别 否则,对于训练集D,以特征Ag为标准,将其划分成若干个非空子集Di,构建子节点。 遍历...原创 2018-04-03 22:26:04 · 159 阅读 · 0 评论 -
机器学习简介(传统、新兴、大规模机器学习)
机器学习主要是用来预测,根据已有的数据,对未知的数据做出决策(也可以是对已有的数据聚类),如果已有的数据是带标签的,就是监督学习,无标签的,就是无监督学习。分类任务如果是预测类别,那就是分类,分类任务是研究的比较久,也比较成熟的一个任务,例如传统的手写体识别任务就是一个10分类问题、计算机视觉中的物体识别、人脸识别。再比如情感分析中的情感分类(喜怒哀乐)。股市的涨跌。点击预测(二分原创 2018-01-30 20:54:06 · 1349 阅读 · 0 评论 -
机器学习0-目录
先挖个坑数学基础0.1 微积分0.2 概率论与统计0.3 线性代数与矩阵0.4 优化理论0.5 机器学习基础(概念、分类、应用)分类1. Regression2. KNN3. NaiveBayes4. DecisionTree(ID3.0,C4.5,CART,Ensemble Learning,Boosting,Random Forest,GBD原创 2018-01-04 15:29:55 · 149 阅读 · 0 评论 -
xlearn初探
简介xLearn 是一款高性能的,易用的,并且可扩展的机器学习算法库,你可以用它来解决大规模机器学习问题,尤其是大规模稀疏数据机器学习问题。在近年来,大规模稀疏数据机器学习算法被广泛应用在各种领域,例如广告点击率预测、推荐系统等。如果你是 liblinear、libfm、libffm 的用户,那么现在 xLearn 将会是你更好的选择,因为 xLearn 几乎囊括了这些系统的全部功能,并且具有...原创 2018-12-17 13:39:19 · 2171 阅读 · 0 评论