《百面机器学习》读书笔记
对于一个机器学习问题,数据和特征决定结果的上限,模型和算法的选择和优化是逼近这个上限。
特征工程:去除原始数据中的杂质和冗余,设计更高效的特征来刻画求解的问题和模型之间的关系。
结构化数据 -- 数值类型、类别类型
数值类型归一化:线性函数归一化、零均值归一化(基于梯度下降优化的模型能够更快收敛)
类别特征编码:独热编码、序号编码、二进制编码。
组合特征:一般出现在类别特征编码的交叉组合,形成二阶及高阶特征(参数过多,使用矩阵分解求解)
非结构化数据 -- 文本、图像、序列等
文本表示模型:词袋模型、TF-IDF、主题模型、词嵌入模型
词袋模型+tfidf | 每一维都是一个词或者N-Gram,该维的权重由TFIDF计算得到 |
主题模型 | 从文本库中计算每个主题上词的分布来发现有代表性的主题,并计算每篇文章的主题分布 |
词嵌入模型 | 将词映射为dense类型的向量(word2vec) |