机器学习
CWJ的博客
You never know how strong you really are until being strong is the only choice you have
展开
-
特征工程中常用的操作
1.特征工程中常用的操作1.1数值型:幅度缩放(最大最小值缩放,归一化…)离散化/分箱分桶(等距:pd.cut,等频:pd.qcut)(特征交叉)统计值(Max,min,quentile)四则运算(加减乘除)幅度变化(有一些模型对输入数据有分布建设,LR建设输入连续值特征符合正太分布)监督学习分箱(用决策树建模,用决策树学习连续值划分方式,把决策树中间节点取出来作为特征组合)1.2类别型:Onehot encoding 独热编码:对于每一个特征,如果它有m个可能值,那么经过独热编码原创 2020-06-05 16:46:21 · 645 阅读 · 0 评论 -
广义线性模型(Generalized_Linear_Model)
1. 线性回归1.1 多元线性回归模型给定训练数据集D={(x1,y1),(x2,y2),⋯ ,(xi,yi),…,(xN,yN)}\begin{aligned} \\& D = \left\{ \left( \mathbf{x}_{1}, y_{1} \right), \left( \mathbf{x}_{2}, y_{2} \right), \cdots, \left(\mathbf{x}_i,y_i\right),\dots, \left( \mathbf{x}_{N}, y_{N} \原创 2020-06-04 18:55:36 · 548 阅读 · 0 评论 -
支持向量机SVM的推导
1、什么是支持向量机?支持向量机是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机的学习策略就是间隔最大化。支持向量机学习方法包含的模型有:线性可分支持向量机、线性支持向量机、非线性支持向量机。SVM算法的推导非常重要,面试也是常考的,一定要亲自从头到尾手推一遍。只需要推导线性可分支持向量机学习算法就可以了,需要输出分离超平面和分类决策函数。2、线性可分支持向量机在样本空间中,划分超平面可用wTx+b=0w^Tx+b=0wTx+b=0表示,记为(w,b)(w原创 2020-06-03 17:51:58 · 381 阅读 · 0 评论 -
机器学习入门介绍
1. 机器学习介绍1.1 基本术语机器学习:利用经验、通过计算、构建模型,来改善系统自身的性能。属性(特征):描述事物在特定方面的表现或性质的事项。属性值:属性上的取值。属性空间(输入空间):属性的所有可能取值构成的集合,若属性为多维特征则是由多维属性张成的空间,属性空间X\mathcal{X}X。记录(样本、实例):一个具体事物的属性描述,由属性向量表示。例如:第jjj个记录xj\mathbf{x}_jxj的属性向量,表示如下xj=(xj(1),xj(2),⋯ ,xj(i),⋯ ,xj(原创 2020-06-03 17:04:56 · 354 阅读 · 0 评论 -
决策树的典型面试考点
1、写下信息熵的公式,并说下熵最大和最小的含义?我们假设数据中某列特征有nnn个取值,这列特征也可以认为是随机变量。其中 $p_{i} $ 代表这列特征取值为 iii 的概率.如果每个特征值取值的概率都是一样大,因为你不知道改选哪个值,那么说明随机变量不确定性最大,也就是熵最大。如果极端情况,n个特征某个特征的取值概率占比0.99999999,说明基本上就可以确定这个特征取值肯定会选这个概率最大的特征,随机变量不确定性很小,熵也就最小。H(X)=−∑i=1npilogpiH(X)=-\sum_{原创 2020-05-25 22:32:53 · 435 阅读 · 0 评论 -
线性回归和逻辑回归的典型面试考点
什么是线性回归和逻辑回归 ?参考:https://blog.csdn.net/jiaoyangwm/article/details/811393621、有监督学习和无监督学习区别?简单来讲:有数据,有标签 (有监督学习)有数据,无标签 (无监督学习)有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。2、分类和回归区别?回归的输出是连续的,比如:1、2、3、4、5、6。注意,所谓“连续”原创 2020-05-21 19:37:28 · 655 阅读 · 0 评论 -
我的机器学习指南
高等数学马同学的博客持续更新中。。。原创 2020-05-21 18:50:54 · 152 阅读 · 0 评论 -
主流机器学习算法优缺点总结
1. 决策树:判别模型,多分类与回归,正则化的极大似然估计2. CART分类与回归树:3. 随机森林:判别模型,多分类与回归,正则化的极大似然估计,Bagging,Random Future4. k-means:聚类5. KNN:判别模型,多分类与回归6. EM:含隐藏变量的概率模型,使用概率模型参数估计7. 线性回归8. LogReg:对数线性模型9. 朴素贝叶斯:生成模型...转载 2018-09-05 09:20:02 · 674 阅读 · 0 评论