![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
jacobwe
请我去我去
展开
-
特征工程
目前业界有句话被广为流传:“数据和特征决定了机器学习的上限,而模型与算法则是逼近这个上限而已。”因此,特征工程做得好,我们得到的预期结果也就好。那特征工程到底是什么呢?在此之前,我们得了解特征的类型:文本特征、图像特征、数值特征和类别特征等。我们知道计算机并不能直接处理非数值型数据,那么在我们要将数据灌入机器学习算法之前,就必须将数据处理成算法能理解的格式,有时甚至需要对数据进行一些组合处理如分桶、缺失值处理和异常值处理等。这也就是特征工程做的事:提取和归纳特征,让算法最大程度地利用数据,从而得到更原创 2020-12-03 21:21:43 · 127 阅读 · 0 评论 -
多路召回1130
推荐多路召回是对各个模型出的结果进行混合排序的过程,以达到推荐结果曝光最大,一般会有基于用户兴趣,热点,内容的原创 2020-11-30 20:34:02 · 96 阅读 · 0 评论 -
数据分析-补
补原创 2020-11-27 22:22:34 · 74 阅读 · 0 评论 -
推荐11-25 模型评估
1 编程基础知识准备函数编程环境函数编程语言2 推荐理论知识准备协同过滤基于物品的item-cf基于用户的item-cfFM根据内容语意的词频余弦相似度:数字表达后的夹角相似度特征编码:对分类类型进行数字表示独热编码:将类别编码 作为 数据表达,稀疏维度过高emedding:稠密向量向量:加入方向矩阵:图片网格变成数字矩阵,销售省市数据变成数字矩阵张量:欧式距离:两点之间的距离3 模型评估均方根误差:两个向量平方相减开平方根ROC:预测结果按照正,负概率排序,绘制真正率原创 2020-11-26 11:20:37 · 163 阅读 · 0 评论 -
AI的基本概念和数据建模调参
1监督学习:利用一组带标签的数据,学习从输入到输出的映射,然后用新数据对照映射关系得到映射结果,达到分类或回归目的D=(X, y) X:数据 y:标签 学习X y的映射关系 算法:线性回归、逻辑回归、朴素⻉贝叶斯、决策树、随机森林林、SVM、神 经⽹网络2 非监督学习输入数据没有被标记,也没有确定的结果D=(X) ⽆无标签 寻找X中的特征或规律律eg:⽤用户分层(兴趣/特征等等),降维⼯工...原创 2020-04-01 23:49:03 · 1598 阅读 · 0 评论 -
EDA
一,缺失数据概要 1 .缺失原因 分为无意的,有意的,不存在。2.缺失类型 ,缺失分为完全随机缺失,随机缺失,完全非随机缺失 3.缺失处理方法 删除法,数据补充(替换补充,拟合补充),虚拟变量,不处理二,缺失数据的类型 1,缺失分为完全随机缺失,随机缺失,完全非随机缺失 2 完全缺失- MCAR(missing completely ...原创 2020-03-23 22:44:32 · 988 阅读 · 0 评论 -
特征工程
特征工程 -brief特征工程一 脑图1特征提取统计特征文本类型特征(tfidf,embeeding)模型特征 stacking 特征2单个特征处理归一化哑变量分箱数据变换log,指数3 多特征处理特征交叉二特征工程 概念1 特征工程很重要2 从x 到 X‘ ,衍生(升维),筛选(将维)3从原始特征的分布抽取统计量 拟合数据标签的分布三特征工程过程sour...原创 2020-03-23 13:48:06 · 183 阅读 · 0 评论 -
pairwise的排序算法
在对常用地点进行排序并分类中,来进行用户行为预测的置信区间判断原创 2019-06-24 19:52:50 · 901 阅读 · 0 评论 -
车场景音乐推荐
车场景音乐主题推荐开车,停车,音乐的展示推荐位置。曲目 -> 流行,2轻音乐 3 古典 4 摇滚->加入热门曲目 -》 推荐相似曲目 --》 转按曲目艺人/专辑1 艺人画像 2 艺人的相似度专辑相似度–》二次推荐 (由专辑过滤到曲目)— 协同召回 |-- 主题相似度— 用户兴趣— 热门排序 1 LR+GBDT FM FRM2 NDCG...原创 2019-10-05 19:15:31 · 235 阅读 · 0 评论