数据挖掘/机器学习
文章平均质量分 86
舟
这个作者很懒,什么都没留下…
展开
-
常见集成模型总结
简介Bagging, Boosting 和 StackingBagging(Bootstrap汇总)是一种集成方法。首先,我们创建随机训练数据集样本(训练数据集的子集)。然后我们为每个样本建立分类器。最后,这些多分类器的结果将结合起来,使用平均或多数投票。Bagging有助于降低方差。 Boosting提供了预测模块的连续学习功能。第一个预测模块从整个数据集上学习,下一个预测模块在前...原创 2018-07-16 22:56:08 · 10393 阅读 · 1 评论 -
推荐系统总结
介绍推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。常用的算法如下: 1. 规则模型 (Apriori算法) 2. 协同过滤 (User-based / Item-based)规则模型(Apriori算法)找出所有频繁项集,频繁性大于等于最小支持度根据频繁项集产生强关联规则,并满足最小支持度和最小置信度支持度 (X=&原创 2018-07-11 23:33:13 · 5910 阅读 · 0 评论 -
FastText算法调研
介绍词向量表示和每个n-gram相关联;单词用这些向量的和表示。这个方法很快,能够在大的语料库计算词语呈现,并且允许没有在训练库中出现的词语。大多数现有的方法用一个唯一的向量表示,且参数不共享,忽略了词语内部的结构,这对那些多种形态的语言有很大限制。 因为许多单词形式如下规则,可以改进矢量表示对于形态丰富的语言,使用字符级别信息. 这篇文章用n-gram的单词学习词语呈现,并且用这些向...原创 2018-07-29 19:16:34 · 1456 阅读 · 2 评论 -
天池大数据比赛-天体分类总结
赛题介绍比赛链接: https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100150.711.8.5f712784mldsqp&raceId=231646在天文学中,光谱描述了天体的辐射特性,以不同波长处辐射强度的分布来表示。每条观测得到的光谱主要是由黑体辐射产生的连续谱、天体中元素的原子能级跃迁产生的...原创 2018-07-15 23:02:40 · 8768 阅读 · 0 评论 -
利用spark ml 进行协同过滤推荐
https://spark.apache.org/docs/latest/spark环境搭建Spark runs on Java 8+, Python 2.7+/3.4+ and R 3.1+. For the Scala API, Spark 2.3.1 uses Scala 2.11. You will need to use a compatible Scala version (2...原创 2018-09-01 15:54:50 · 2893 阅读 · 1 评论 -
tensorflow wide and deep 模型实践
tensorflow 环境搭建wide and deep demowide and deep 介绍https://github.com/tensorflow/models/tree/master/official/wide_deep https://ai.googleblog.com/2016/06/wide-deep-learning-better-together-wit...原创 2018-09-01 21:40:13 · 2540 阅读 · 0 评论 -
推荐系统中的用户冷启动问题
问题在推荐系统中,新用户进入系统,缺乏用户行为特征,无法准确地用常用的CF等方法进行推荐。方案利用用户注册信息人口统计学信息: 年龄 性别 职业 名族 学历 居住地: 计算离线相关表(按照一定权重相加,或者) 给用户推荐热门物品并不是推荐系统的主要任 务,推荐系统应该帮助用户发现他们不容易发现的物品, 里分母中使用参数 的目的是解决数据稀疏问题。比如有一个物品只被...原创 2018-09-05 23:30:52 · 2964 阅读 · 2 评论