spark
Mr_哲
get ready
展开
-
spark ml 特征工程实现
package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...原创 2018-08-22 11:56:21 · 1896 阅读 · 0 评论 -
基于K-均值的app列表聚类分析
目录一、工程实现1. 提取稀疏向量2. K-均值聚类3. 踩过的坑二、评估在个性化推荐中,新用户冷启动问题一直是难题。一般做法是tagCtr、地域、时间轴等(用户画像单一维度)推荐,效果也挺不错的。其实,除了以上比较明显维度考量,用户app列表也隐藏着用户丰富个性化特征。不同用户群体对app偏爱也不尽相同,例如游戏宅可能更多选择各种类型游戏app,漫画控喜欢二次元和动漫ap...原创 2019-02-27 20:55:14 · 4572 阅读 · 0 评论 -
spark优化指南
目录一、代码优化1. 基本原则2. 算子优化2.1 reduceByKey/aggregateByKey替代groupByKey2.2 mapPartitions(foreachPartitions)替代map(foreach)2.3 使用filter之后进行coalesce操作2.4 repartitionAndSortWithinPartitions替代repart...原创 2018-11-21 18:57:54 · 837 阅读 · 0 评论 -
基于ItemBased和ALS的协同过滤推荐算法
基于邻域的算法是个性化推荐系统中最基本的算法,该算法不仅在学术界得到了深入研究,而且在业界得到了广泛应用。基于邻域的算法分为两大类,一类是基于用户的协同过滤算法,另一类是基于物品的协同过滤算法。本文主要研究基于物品的协同过滤算法和基于ALS协同过滤算法。一、基于物品的协同过滤算法1.基本思想ItemCF算法通过计算用户的历史行为记录,来分析物品之间的相似度:如果喜欢物品A的用户大多数也...原创 2018-09-29 14:31:43 · 2070 阅读 · 0 评论 -
基于逻辑回归/决策树/随机森林/多层感知分类器/xgboost/朴素贝叶斯分类的资讯多分类性能对比
在上一篇(https://blog.csdn.net/baymax_007/article/details/82748544)中,利用逻辑回归实现资讯多分类。本文在之前基础上,又引入决策树、随机森林、多层感知分类器、xgboost和朴素贝叶斯分类算法,并对验证集和测试集分类正确率和耗时进行性能对比。ml支持决策树、随机森林、梯度提升决策树(GBDT)、线性支持向量机(LSVC)、多层感知分类器...原创 2018-09-27 17:18:09 · 5380 阅读 · 2 评论 -
Cross-validation优化资讯多分类模型参数
在上一篇(https://blog.csdn.net/baymax_007/article/details/82775180)中,只是简单选用逻辑回归、决策树、随机森林、多层感知分类器、xgboost、朴素贝叶斯分类对资讯进行分类。然而,实际分类模型效果受模型初始化的参数影响,选取合适参数可以提高分类效果。交叉验证(Cross-validation)是常用的模型参数优化方法。CrossVali...原创 2018-09-28 10:08:14 · 1881 阅读 · 2 评论 -
基于MLR资讯多分类
针对海量资讯,通过机器学习实现多分类,从而减轻人工打标工作量,具有重要意义。资讯分类可以拆解为两个问题:文本分词,提取特征 多分类模型针对文本分词,常见中文分词工具有:HanLP、ansj、jieba和fudannlp。这里选取HanLP。而多分类模型有逻辑回归(Logistic regression)、决策树(Decision tree classifier)、随机森林(Random...原创 2018-09-17 21:21:31 · 1894 阅读 · 0 评论 -
spark ml实现逻辑回归案例分析
一、spark ml介绍spark ml对机器学习算法的api进行了标准化,使将多个算法合并到一个管道或工作流变得更容易。为了更清楚了解,从以下及几个方面展开说明。DataFrame:这个ML API使用Spark SQL的DataFrame作为ML数据集,它可以容纳各种数据类型。例如,DataFrame可能有不同的列存储文本、特征向量、真实标签和预测。Transformer: Tra...原创 2018-09-05 19:22:56 · 12760 阅读 · 6 评论 -
基于K-均值的app列表聚类分析优化
目录一、过滤词表筛选二、模型更新三、app类型处理1. 统计app类型占比2. 新增app类型特征在基于K-均值的app列表聚类分析中,初步完成用户app列表特征聚类。我们在评估中发现以下几个问题:某些同类用户app列表出现大量相同的国民app(如支付宝、微信、QQ、腾讯视频等)和系统app(如日志和备份、相机等); 部分app属性对应有app类别,这部分信息没有利用...原创 2019-03-06 11:59:26 · 1612 阅读 · 1 评论