![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
qq_41584674
这个作者很懒,什么都没留下…
展开
-
特征预处理
概念:通过特定的统计方法姜数据转换为算法要求的数据方法:sklearn特征处理APIsklearn.preprocessing归一化:通过最大值和最小值对数据进行处理将数据转换为[0,1]之间的数,使得所有特征所占比例大致相同。缺点:对于异常点的处理不好,最大值最小容易受异常点影响(鲁棒性较差)标准化:通过平均值标准差对数据进行处理,将数据转换为平均值为0, 标准差为1 的数据。...原创 2018-10-09 15:49:59 · 423 阅读 · 0 评论 -
数据的降维
方式:1、特征选择:主要方法:Filter(过滤式):VarianceThresholdEmbedded(嵌入式):正则化、决策树Wrapper(包裹式)Filter:删除低方差的特征。2、主成分分析:PCA:特征数量达到上百个时,使数据维数压缩,尽可能降低原数据的维数。当数据特征较多时,特征之间可能是相关的。...原创 2018-10-09 16:57:45 · 116 阅读 · 0 评论 -
数据库
三范式;第一范式(1NF):列不可拆分第二范式(2NF):唯一标识第三范式(3NF):引用主键spark直接对内存进行操作mapreduce对硬盘进行操作所以spark更高效...原创 2018-10-19 09:16:41 · 84 阅读 · 1 评论 -
k-means算法
非监督学习k:将数据划分为多少个类别过程:1、随即设置k个特征空间内的点作为初始的聚类中心2、对于其他每个点计算到k个中心的距离,未知的点选择最近的一个聚类中心点作为标记分类3、接着对着标记的聚类中心之后,重新计算出每个聚类的新中心点(平均值)4、如果计算得出的新中心点于原中心点一样,那么结束,否则重新进行第二步聚类评估标准:轮廓系数:sci=bi−aimax(bi,ai)sc_...原创 2018-10-22 15:52:07 · 137 阅读 · 0 评论 -
神经网络
神经网络softmax用于计算所属不同目标值的概率损失函数交叉熵损失:Hy′(y)=−∑iyi′logyiH_{y'}(y) = -\sum_iy_i' \log y_iHy′(y)=−∑iyi′logyi其中y′y'y′代表one-hot编码的真实结果值,yiy_iyi代表softmax计算得到的概率优化方法反向传播...原创 2018-10-22 22:50:08 · 142 阅读 · 0 评论 -
分类算法
分类算法k近邻算法通过样本距离进行分类,取最近邻的k个数据数据集需要标准化朴素贝叶斯算法在特征独立的情况下进行分类算法:P(C∣W)=P(W∣C)P(C)P(W)P(C|W) = \frac{P(W|C)P(C)}{P(W)}P(C∣W)=P(W)P(W∣C)P(C)W为给定文档的特征值,C为文档类别P(C)P(C)P(C)文档出现的概率P(W)P(W)P(W) 每个特征出现的...原创 2018-10-20 08:36:16 · 202 阅读 · 0 评论 -
模型评估与选择
过拟合学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了欠拟合学习能力低下,不能准确的根据特性分类。泛化误差学习器在新样本上的误差训练误差学习期在训练集上的误差评估方法留出法将数据集划分为两个部分,一部分当成训练集,另一部分当成测试集交叉验证法将数据集D划分为k个大小相似的子集每次将k-1个子集当成训练集余下的子集当成测试集自助法对于包含m个样本的数据集...原创 2018-10-20 09:16:15 · 108 阅读 · 0 评论 -
线性模型
线性模型对于给定d个属性的示例x=(x1;x2;...;xd)x = (x_1;x_2;...;x_d)x=(x1;x2;...;xd)线性模型试图学得一个通过属性线性组合来进行预测的函数f(x)=w1x1+w2x2+w3x3+...+wdxd+bf(x) = w_1x_1+w_2x_2+w_3x_3+...+w_dx_d+bf(x)=w1x1+w2x2+w3x3+...+w...原创 2018-10-20 11:18:06 · 194 阅读 · 0 评论