机器学习篇
IT但丁
知道结局是干掉大魔王,那斩龙的剑总会到手的!
展开
-
基于spark.ml的GBDT回归模型及评价指标
文章目录一、GBDT是什么?二、使用步骤1.引入库2.读入数据3、剔除null数据、重命名列、切分4、创建特征向量5、创建GBDT回归模型 、创建管道6、创建回归评估器7、超参数调整,创建网格搜索8、训练预测模型9、创建模型评价方式10、获取最佳模型,并转换三、工具类一、GBDT是什么?右键百度,这里只贴创建流程的代码。二、使用步骤1.引入库代码如下:import com.cennavi.correlations.domain.{EvaluatorUtils, SparkUtils}im原创 2020-09-19 23:32:43 · 1542 阅读 · 0 评论 -
朴素贝叶斯之自然语言语义分析(三):评论情感分类 - 差评、中评、好评
一、需求说明(1)应用背景我们在做用户画像的时候,需要获得用户对某商品、品牌的评价记录这样的事实标签。这个值获取很麻烦,不好根据一句标语得出一个分值。我们可以为评价的偏好得分,定义一个规则:好评 --> 得 5分中评 --> 得 0分差评 --> 得 - 5分(2)带来的问题业务系统中有大量的用户商品评价,存在于商品评论表中:sku_idus...原创 2020-02-24 00:50:27 · 4444 阅读 · 0 评论 -
朴素贝叶斯之自然语言语义分析(二):TF-IDF运行原理深入剖析-Spark手撕篇
1、TF-IDF介绍(1)意义主要用于自然语言中文本特征向量化。特征向量化方案:词的特征位置映射: Hash映射词的特征值选取:不再简单地用词频作为特征值,而改用NLP中最经典的衡量一个词在一篇文章中重要性的指标(TF-IDF)(2)核心思想这个词在一篇文章中出现的频次越高,重要性越高!在整个样本集中,含有这个词的文章数越少,这个词重要性越高!(3)计算公式TF-IDF...原创 2020-02-23 00:45:13 · 835 阅读 · 0 评论 -
朴素贝叶斯之自然语言语义分析(一):简单文本主题分类→手撕文本特征向量化
1、需求说明(1)经验样本数据:docid,label,docdoc0,1,苹果 官网 苹果 宣布 骁龙 安卓doc1,0,苹果 梨 香蕉 桔子 肥料 甜度doc2,0,苹果 梨 桔子 保鲜 甜度doc3,1,苹果 科技 手机 官网 宣布 安卓 骁龙(2)对下面的未知类别文档做分类预测:docid,docdoc1,苹果 香蕉 甜度doc2,苹果 手机 安卓 骁龙2、难点分...原创 2020-02-21 23:07:51 · 801 阅读 · 0 评论 -
朴素贝叶斯算法(快速入门)
1、NaiveBayes简介及原理(1)简介常用于分类与预测的问题,且都是概率预测。比如邮箱中每天收到大量的邮件,如何预测哪些邮件是垃圾邮件?比如一个电商网站,有大量的客户对店家或商品的评价,如何预测是好评还是中评、差评?(2)数学原理贝叶斯定理:P(A|B)=P(B|A)P(A)/P(B)意义:如果求 P( A | B) 不好直接计算,则可以通过贝叶斯定理转换成计算P( B | A...原创 2020-02-21 15:52:43 · 429 阅读 · 0 评论