机器学习
文章平均质量分 70
Jessica__WEI
用自己的方式热爱这个世界
展开
-
机器学习常用算法:Logistic Regression
逻辑斯谛分布设XX X 是连续随机变量,XX X 服从逻辑斯谛分布是指XXX 具有下列分布函数和密度函数: 分布函数 F(x)=P(X≤x)=11+e−(x−μ)/γF(x)=P(X≤x)=11+e−(x−μ)/γ F(x) = P(X \le x) = \frac{1}{1+e^{-(x-\mu)/\gamma}} 密度函数 f(x)=F′(x)=e−(x−μ)/γγ(1+e...原创 2018-02-23 17:06:15 · 204 阅读 · 0 评论 -
pandas数据索引:loc、iloc和ix
1、loc通过行标签索引行数据 (1)、loc[‘d’]:获取第’d’行数据import pandas as pd data = [[1,2,3],[4,5,6]] index = [‘d’,'e'] columns=['a','b','c'] df = pd.DataFrame(data=data, index=index, columns=columns)原创 2018-01-08 14:06:10 · 525 阅读 · 0 评论 -
pandas数据新索引:reindex
DataFrame.reindex(labels=None, index=None, columns=None, axis=None, method=None, copy=True, level=None, fill_value=nan, limit=None, tolerance=None)常用关键参数:method:插值填充方法fill_value:引入缺失数据值columns原创 2018-01-10 14:34:45 · 587 阅读 · 0 评论 -
Sklearn数据预处理:scale, StandardScaler, MinMaxScaler, Normalizer
一、标准化去除均值和方差缩放:通过(X-X_mean)/std计算每个属性(每列),进而使所有数据聚集在0附近,方差为1.(1)、sklearn.preprocessing.scale() 直接将给定数据进行标准化from sklearn import preprocessingimport numpy as npX = np.array([[ 1., -1., 2.],[ 2., 0.,原创 2018-01-12 14:09:19 · 20813 阅读 · 0 评论 -
机器学习:判别式模型与生成式模型
首先明确一点,机器学习其实是从特征x预测标记y,求条件概率P(y|x)的过程。判别式模型判别式模型直接通过求解条件概率p(y|x)或者直接计算y的值来预测y,就是判别数据输出量的模型;举例:要判断一个羊是山羊还是绵羊,用判别式模型就是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。求解思路:条件分布-->模型参数后验概率最大-->(似然函数,参...原创 2018-03-19 16:54:21 · 647 阅读 · 0 评论 -
机器学习:模型的过分拟合
一、分类模型的误差1.训练误差(Training error)也称再代入误差(Resubstitution error)或表现误差(Apparent error),是在训练记录上误分类样本比例2.泛化误差(Generalization error)泛化误差是模型在未知记录上的期望误差二、模型过拟合一个好的分类模型不仅能够很好地拟合训练数据,而且对未知样本也能够准原创 2017-12-13 03:29:07 · 7985 阅读 · 0 评论 -
分类模型的评估方法
在检验集上计算出的准确率或错误率可以用来比较不同分类器在相同领域上的性能,但需要检验记录的类标号必须已知。一、保持方法(Holdout)将被标记的原始数据划分为两个不相交的集合,分别为训练集和检验集。在训练集上归纳分类模型,在检验集上评估模型的性能。训练集和检验集的划分比例通常根据专家的判断,例如50-50,或者2/3作为训练集,1/3作为检验集。模型的准确率根据模型在检验集上的准原创 2017-12-14 01:30:19 · 2941 阅读 · 0 评论 -
分类器的比较方法
目标:比较不同分类器的性能,以确定在给定的数据集上哪种分类器效果更好。一、估计准确度的置信区间通过将分类任务用二项式试验建模来推导置信区间。给定一个包含N个记录的检验集,令X是被模型正确预测的记录数,p是模型的真正准确率。通过吧预测任务用二项式试验建模,X服从均值为Np、方差为Np(1-p)的二项分布。可以证明经验准确率acc=X/N也是均值为p,方差为p(1-p)/N的二项分布。当N充分大时,通常原创 2017-12-14 04:53:39 · 3209 阅读 · 0 评论 -
机器学习常用算法:最大熵模型
最大熵原理学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。 假设离散随机变量XXX 的概率分布是 P(X)P(X)P(X) , 则其熵为H(P)=−∑xP(x)logP(x)H(P)=−∑xP(x)logP(x) H(P) = - \sum_x P(x) \text{log} P(x) 且满足如下不等式:0≤H(P)≤log|X|0≤H(P)≤log|X...原创 2018-02-23 22:46:23 · 696 阅读 · 0 评论 -
pandas数据分组运算:groupby
groupby:pandas中最为常用的分组函数(1)、按列分组import pandas as pdimport numpy as npdf = DataFrame({'key1':['a','a','b','b','a'],'key2':['one','two','one','two','one'],'data1':np.random.randn(5),'data2':np.random.r原创 2018-01-08 11:29:04 · 5167 阅读 · 0 评论