- 博客(11)
- 资源 (13)
- 收藏
- 关注
转载 协同过滤算法思想
在推荐系统众多方法中,基于用户的协同过滤推荐算法是最早诞生的,原理也较为简单。该算法1992年提出并用于邮件过滤系统,两年后1994年被 GroupLens 用于新闻过滤。一直到2000年,该算法都是推荐系统领域最著名的算法。 本文简单介绍基于用户的协同过滤算法思想以及原理,最后基于该算法实现园友的推荐,即根据你关注的人,为你推荐博客园中其他你有可能感兴趣的人。基本思想
2016-04-22 09:25:49 4243
原创 协同过滤算法原理介绍
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering
2016-04-22 09:24:09 5868 1
原创 java中的匿名内部类
匿名类是不能有名称的类,所以没办法引用它们。必须在创建时,作为new语句的一部分来声明它们。这就要采用另一种形式的new语句,如下所示: new 这种形式的new语句声明一个新的匿名类,它对一个给定的类进行扩展,或者实现一个给定的接口。它还创建那个类的一个新实例,并把它作为语句的结果而返回。要扩展的类和要实现的接口是new语句的操作数,后跟匿名类的主体。如果匿名类对另一个类进行扩展,它的主体可
2016-04-18 15:38:57 408
转载 mongodb之shard集群 balance操作管理
查看balance状态mongos> sh.getBalancerState()true通过balance锁查看balance活动如果state是2,表示balance锁已经被获取mongos> db.locks.find({"_id" : "balancer"}).pretty(){ "_id" : "balancer",
2016-04-15 09:09:34 4978
原创 MongoDB之集群安装部署与shard操作
近期在设计用户标签系统当中, 采用了mongodb作为标签体系的底层主要的存储系统,因此在这里先尝试下有关mongodb的shard方式集群方式安装与测试:一. 环境部署: 1.1 版本: MongoDB版本:mongodb-linux-x86_64-2.6.7 jdk版本: version 1.7 1.2 相关路径: 安装路径:
2016-04-14 12:19:58 2067
原创 特征工程之连续特征与离散特征处理方法介绍
下面一篇是关于连续特征与离散特征处理的论文:Before I answer the above question, let us go through some basic ideas.Why do we binarize categorical features?We binarize the categorical input so that they can be thoug
2016-04-11 15:17:11 10652 3
原创 广义线性模型
机器学习中常见的广义线性模型(GLM):这种模型是把自变量的线性预测函数当作因变量的估计值。在机器学习中,有很多模型都是基于广义线性模型的,比如传统的线性回归模型,最大熵模型,Logistic回归,softmax回归,等等。今天主要来学习如何来针对某类型的分布建立相应的广义线性模型。 Contents 1. 广义线性模型的认识 2. 常见概
2016-04-11 14:53:08 727
原创 连续特征进行离散化的方法介绍与应用例子
RT,尤其在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。连续特征离散化处理有什么好的方法, 有时候为什么不直接归一化?这里主要说明监督的变换方法;连续性变量转化成离散型变量大致有两类方法:(1)卡方检验方法;(2)信息
2016-04-08 17:07:34 13915 1
原创 One-Hot Encoding与类别特征处理
机器学习 数据预处理之独热编码(One-Hot Encoding)在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safar
2016-04-08 16:55:59 6537
原创 风控评分模型
一概述余额支付的风险识别模型分为两类:(1)盗号交易识别风险和(2)盗卡交易识别风险。其中盗卡交易识别风险和余额有关主要是由于骗子注册号码帮盗来的卡,然后进行充值到余额,通过余额支付销赃。(1)和(2)两种针对的情景不一样,采用的特征变量和变量的重要性很大程度是不一样的。针对(1)的问题,主要是看当前交易相对用户之前的行为是否存在异常。针对(2)的问题,主要看用户信息和绑卡的信息匹配
2016-04-08 09:59:14 19811 1
原创 特征工程之类别特征 处理方法介绍
当类别特征仍保持原始形式时,其取值来自所有可能取值构成的集合而不是一个数字,故不能作为输入。当各个取值之间是没有顺序关系的并列关系,这样的类别特征称为 名义(nominal)变量。相反,那些存在顺序关系的(比如评级,评级5的会好于评级1的),则被称为 有序(ordinal)变量。将类别特征表示为数字形式,常可借助 1-of-k 这样的编码方法进行。假设变量的取值有 k 个,
2016-04-07 15:36:22 2691
text-classification-cnn-rnn.rar
2020-07-09
内存中引用与指针之间的使用与区别
2009-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人