特征工程
Mr_哲
get ready
展开
-
spark ml 特征工程实现
package com.sparkMLlibStudy.modelimport java.utilimport org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}import org.apache.spark.ml.feature._import org.apache.spark.ml...原创 2018-08-22 11:56:21 · 1911 阅读 · 0 评论 -
spark ml实现逻辑回归案例分析
一、spark ml介绍spark ml对机器学习算法的api进行了标准化,使将多个算法合并到一个管道或工作流变得更容易。为了更清楚了解,从以下及几个方面展开说明。DataFrame:这个ML API使用Spark SQL的DataFrame作为ML数据集,它可以容纳各种数据类型。例如,DataFrame可能有不同的列存储文本、特征向量、真实标签和预测。Transformer: Tra...原创 2018-09-05 19:22:56 · 12796 阅读 · 6 评论 -
基于MLR资讯多分类
针对海量资讯,通过机器学习实现多分类,从而减轻人工打标工作量,具有重要意义。资讯分类可以拆解为两个问题:文本分词,提取特征 多分类模型针对文本分词,常见中文分词工具有:HanLP、ansj、jieba和fudannlp。这里选取HanLP。而多分类模型有逻辑回归(Logistic regression)、决策树(Decision tree classifier)、随机森林(Random...原创 2018-09-17 21:21:31 · 1906 阅读 · 0 评论 -
Cross-validation优化资讯多分类模型参数
在上一篇(https://blog.csdn.net/baymax_007/article/details/82775180)中,只是简单选用逻辑回归、决策树、随机森林、多层感知分类器、xgboost、朴素贝叶斯分类对资讯进行分类。然而,实际分类模型效果受模型初始化的参数影响,选取合适参数可以提高分类效果。交叉验证(Cross-validation)是常用的模型参数优化方法。CrossVali...原创 2018-09-28 10:08:14 · 1905 阅读 · 2 评论 -
基于K-均值的app列表聚类分析优化
目录一、过滤词表筛选二、模型更新三、app类型处理1. 统计app类型占比2. 新增app类型特征在基于K-均值的app列表聚类分析中,初步完成用户app列表特征聚类。我们在评估中发现以下几个问题:某些同类用户app列表出现大量相同的国民app(如支付宝、微信、QQ、腾讯视频等)和系统app(如日志和备份、相机等); 部分app属性对应有app类别,这部分信息没有利用...原创 2019-03-06 11:59:26 · 1629 阅读 · 1 评论