特征与推荐系统
文章平均质量分 90
以机器学习的实践应用为主,学习特征与推荐相关
杨提督门下
这个作者很懒,什么都没留下…
展开
-
天池项目——二手车预测(二)
天池项目——二手车预测(一):https://blog.csdn.net/liuxingxing_sun/article/details/115710876 文章目录建模和调参线性回归岭回归Lasso回归 建模和调参 #读取数据 import pandas as pd import numpy as np import warnings warnings.filterwarnings('ignore') #reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间 def原创 2021-04-22 15:44:45 · 476 阅读 · 0 评论 -
天池项目——二手车预测(一)
origin from: datawhale 文章目录Baseline数据分析特征工程 Baseline 数据分析 特征工程原创 2021-04-15 18:27:33 · 502 阅读 · 0 评论 -
特征工程基础知识(二)
特征工程基础知识(一):https://blog.csdn.net/liuxingxing_sun/article/details/110539139 这里写目录标题分类变量one-hot编码虚拟编码效果编码处理大型分类变量特征散列化分箱计数最小计数图无界计数各自优缺点使用PCA(主成分分析)挤压数据非线性特征化与K-均值模型堆叠K-均值聚类 分类变量 变量是用来表示类别或者是标记的,大型分类变量如id值,Ip地址等。 one-hot编码 虚拟编码 One-hot编码的问题是它允许有k个自由度,而变量本身原创 2021-04-12 21:25:07 · 458 阅读 · 0 评论 -
推荐系统基础知识(二)
原创 2020-12-06 18:47:37 · 125 阅读 · 0 评论 -
特征工程基础知识(一)
文章目录处理计数对数变换特征缩放/归一化Min-Max缩放特征标准化/方差缩放欧几里得范数词袋:基于单词数量统计的最简单的文本特征表示方法,TF-ID文本解析和分词词频-逆文档频率 处理计数 数据被大量且快速的生成时很有可能包含一些极端值,这时就需要检查数据的尺度以确定是否应该保留数据原始的数值形式,还是应该将他们转换成二值数据,或者是进行粗粒度的分箱(固定宽度分箱,分位数分箱)操作。 对数变换 对于具有重尾分布的正数值的处理,对数变换技术变化是一个非常强大的工具。重尾分布的概率质量更多的位于尾部,它压缩.原创 2020-12-03 16:14:07 · 413 阅读 · 0 评论