机器学习
sq0723
这个作者很懒,什么都没留下…
展开
-
Spark MLlib 机器学习算法(一)
一 协同过滤算法协同过滤(Collaborative filtering)算法是一种基于群体用户或者物品的典型推荐算法,主要有两种:一种是通过考察具有相同爱好的用户对相同物品的评分标准进行计算。一种是考察具有相同特质的物品从而推荐给选择了某件物品的用户。协同过滤算法关键是计算相似度,主要有以下几种方法:1、 基于欧几里得距离计算公式:主要从不同目标的绝对差异性考虑2、 基于余弦角度计算公式:主要从方向趋势上考虑3、 交替最小二乘法(ALS)Val ratings = data.map原创 2020-12-25 11:34:56 · 449 阅读 · 0 评论 -
Spark MLlib数据类型和数理统计
一、 数据类型Spark MLlib基本数据类型包括:1) 本地向量集,主要向spark提供一组可操作的数据集。向量包括稀疏型数据集(spares)和密集型数据集(dense)。代码示例如下: val vd:Vector = Vectors.dense(2,0,6) //密集型 val vs:Vector = Vectors.sparse(4,Array(0,1,2,3),Array(9,5,2,7))2) 向量标签,让用户能够分类不同的数据集合。代码示例如下: //使原创 2020-12-24 18:37:55 · 517 阅读 · 1 评论 -
互联网金融风控模型大全
一、市场调研目前市面主流的风控模型1、互联网金融前10名排行榜(数据截止日期2017-09-12)互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。1.1 蚂蚁金服1.1.1 大数据技术对接第三方征信公司芝麻信用分,通过用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度对海量数据行综合的处理评估,同时也给予...转载 2019-07-02 17:33:18 · 13518 阅读 · 2 评论 -
机器学习-异常检测算法(二):Local Outlier Factor
Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et.al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBSCAN,OPTICS)。但是,基于统计的异常检测算法通常需要假设数据服从特定的概率分布,这个假设往往是...转载 2019-05-30 11:12:38 · 1650 阅读 · 0 评论