1.统计学
数据度量标准(平均数、中位数(一组数据中,最中间位置的数)、众数(一组数据中出现数据次数最多的数)、期望(均值)、方差(衡量一组随机变量的离散程度)、标准差(方差的算术平方根))
图形可视化(饼图、条形图、热力图、折线图、箱线图、散点图、雷达图、仪表盘)
概率分布(几何分布、二项分布、正态分布(高斯分布,期望为0,标准差为1的是标准正态分布)、泊松分布)
统计假设检验
2.线性代数
向量、 矩阵、距离计算(余弦距离、欧式距离、曼哈顿距离、明可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准欧式距离、皮尔逊相关系数)
2.1 余弦距离:
概述:在机器学习领域,通常将特征表示成向量的形式,通常在衡量两个向量的相似度时,常用余弦相似度表示。例如将两篇文章向量化,余弦相似度可以避免因为文章长度不一样导致的距离偏大,余弦距离只考虑两篇文章生成向量的夹角。
余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1。
3.概率论
随机试验、条件概率、全概率、贝叶斯定理、信息论