- 博客(11)
- 资源 (42)
- 收藏
- 关注
原创 Kaggle实战学习 笔记
学习笔记第一课数据与可视化#numpy科学计算工具箱import numpy as np#使用make_classification构造1000个样本,每个样本有20个featurefrom sklearn.datasets import make_classificationX, y = make_classification(1000, n_features=20, n_in
2017-11-27 17:06:30 4323
转载 event_recommendation_competition
这个案例跟推荐系统相关,预测用户可能感兴趣的event。关于这个案例更多信息打开event_recommendation_competition。这里我直接讲解第一名的解决方案。这个方案中除了包含经典的机器学习解决步骤,还融合了推荐系统里传统的解决方法:基于用户的协同过滤,基于物品的协同过滤,当然也可以融合LFM模型等等,因为这个解决方案很经典,所以我觉得值得拿出来详细讲讲。我将贴出完整代码,并且
2017-11-27 16:48:58 1313
转载 基于图的推荐算法(PersonalRank)
本博文将介绍PersonalRank算法,以及该算法在推荐系统上的应用。 将用户行为数据用二分图表示,例如用户数据是由一系列的二元组组成,其中每个元组(u,i)表示用户u对物品i产生过行为。将个性化推荐放在二分图模型中,那么给用户u推荐物品任务可以转化为度量Uv和与Uv 没有边直接相连 的物品节点在图上的相关度,相关度越高的在推荐列表中越靠前。图中顶点的相关度主要取决与
2017-11-27 16:47:57 16979 17
转载 利用用户标签数据
在之前的博文中介绍了三种方法给用户推荐物品。 1)UserCF:给用户推荐和他们兴趣爱好相似的其他用户喜欢的物品。 2) ItemCF:给用户推荐与他喜欢过的物品相似的物品。 3) LFM:通过一些特征来联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品。 具体可以看我之前的博文。 本文我将自己实现两个算法,如有不对的地方还望指正。 本节咱们将讨论一种重要的特征表现形式
2017-11-27 16:46:18 3631
转载 LFM
LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户兴趣和物品。 相比USerCF算法(基于类似用户进行推荐)和ItemCF(基于类似物品进行推荐)算法;我们还可以直接对物品和用户的兴趣分类。对应某个用户先得到他的兴趣分类,确定他喜欢哪一类的物品,再在这个类里挑选他可能喜欢的物品。基于上面的思想,基于兴趣分类的方法大概需要解决3个问题: ①:如何
2017-11-27 16:44:21 6248 6
转载 userCF算法
一: 推荐系统任务:联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产中的双赢。长尾理论:传统80/20(%80销售额来自于20%热门商品)原则在互联网加入下受到挑战。长尾商品销售额是个不容小觑的数字,也许会超过热门商品带来的销售额。热门商品代表绝大多数用户需求,而长尾商品代表一小部分用户个性化需求。因此要发
2017-11-27 16:42:12 10163 1
转载 概率分布之间的距离度量以及python实现
概率分布之间的距离度量以及python实现1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12
2017-11-23 18:23:35 3699
转载 SparkML之回归(三)保序回归
在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。------------------------------------前言背景:(1)在医学领域药物剂量反应中,随着药物剂量的增加,疗效和副作用会呈现一定趋势。比如剂量越高,疗效越
2017-11-20 15:22:30 796
转载 【Spark2.0源码学习】-9.Job提交与Task的拆分
在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用户任务类(或者任务代码)进行分析 一、整体预览 基于上篇图做了扩展,增加任务执行的相关交互 Code:指的用户编写的代码RDD:弹性分布式数据集,用户编码根据
2017-11-11 15:59:40 477
转载 Spark SQL利器:cacheTable/uncacheTable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,
2017-11-10 10:13:50 644
转载 Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Spark编程模型1.1 术语定义l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;l驱动程序(Driver Program):运行Application的main()函数并且创建SparkCont
2017-11-10 10:11:30 232
Pro Go The Complete Guide -go语言学习最新书籍
2023-06-19
Advanced_Programming_in_the_UNIX_Environment,_3rd
2018-11-30
Deep_Learning_Quick_Reference
2018-09-01
Convex Optimization Algorithms
2018-09-01
Guide.to.Medical.Image.Analysis.Methods.and.Algorithms
2018-09-01
Python Machine Learning Machine Learning and Deep Learning
2018-03-27
Data Structures and Algorithms Using Python and C++
2018-03-27
R_for_Data_Science
2018-03-27
Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow
2018-03-17
Approximate.Dynamic.Programming.2011
2018-01-17
Swarm Intelligence Principles Advances and Applications
2018-01-13
Reinforcement Learning With Open A TensorFlow and Keras Using Python.pdf
2017-12-18
Fundamentals of Deep Learning完整非扫描版本2017
2017-12-16
Text Mining in Practice with R 2017.12
2017-12-13
Text_Mining-From_Ontology_Learning_to_Automated_Text_Processing_Applications
2017-12-13
Tensorflow 机器学习参考手册2007
2017-11-22
Spark大数据处理技术 带标签 完整版
2017-11-12
模式分类11
2016-11-07
集体编程智慧
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人