机器算法
alone52Hz
这个作者很懒,什么都没留下…
展开
-
模型分类
参数估计:参数时未知的一个常数,与样本的个数无关,例如:y=w*x,p(y=1)=1/(1+e-w*x)非参数估计:不是无参数,而是参数太多,并且与与样本数目有关,例如:knn算法,参数有k,每个样本都是参数,并且计算比较两两距离,样本不同,结果就不同,参数是变化的可以是无穷个的,因此称为非参数估计判别模型:已知的是目标y的分布情况(p(y|x)是条件概率),例如:logistic回归,其中由于y属原创 2017-01-05 09:31:44 · 292 阅读 · 0 评论 -
linear_model:线性模型使用
linear_model线性回归模型步骤模型和数据导入特征选择特征归一化处理模型策略(经验风险最小化,结构风险最小化,损失函数,正则化)模型训练(交叉验证法)模型预测模块导入特征选择特征选择:提取主要特征,减少数据冗长重复,有模块直接使用策略:1.低方差阈值(VarianceThreshold)2.单变量特征选择(selectKbest、selectpercentile)For regressi原创 2017-01-01 11:54:13 · 2786 阅读 · 0 评论 -
gensim文本主题模型推荐
用gensim包做中文文本的推荐一、gensim是generate similar的简写,叫做普遍相似。对于gensim这个包建议新手直接使用anaconda工具进行集中安装二、gensim包中做文本推荐要使用的几个重要的模块 1、corpora 语料库(将文本文档转为文档向量(基于词频和tfidf的文档向量))from gensim import cor原创 2016-06-23 21:51:03 · 2864 阅读 · 1 评论 -
Lasso and Elastic Net for Sparse Signals:线性模型之套索和弹性网稀疏信号对比
相关指数R2知识介绍回归平方和+残差平方和=总偏差平方和残差平方和=sum(y预测i-y观测i)^2总偏差平方和=sum(y观测i-y观测平均)^2回归平方和=sum(y预测i-y观测平均)^2R2=1-残差平方和/总偏差平方和import numpy as np # 数组库import matplotlib.pyplot as plt # 作图库from sklearn.metrics imp原创 2017-01-02 16:55:45 · 1454 阅读 · 0 评论 -
LinearRegression,Ridge,RidgeCV,Lasso线性回归模型简单使用
一、线性回归linearRegression:使用经验风险最小化=损失函数(平方损失)>>> from sklearn import linear_model #导入模块>>> reg = linear_model.LinearRegression() #导入模型>>> reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2]) #模型训练LinearRegre原创 2017-01-01 21:51:27 · 11642 阅读 · 0 评论 -
1.1.1. Ordinary Least Squares 普通最小二乘法
(一)回归模型1.常见损失函数2.期望风险函数:这是真实的风险,由于不知道联合分布P(X,Y),因此无法计算3.经验风险函数注:1.训练数据样本的平均损失2.训练数据样本越多(N),越逼近期望风险函数(二)最小经验风险函数:训练样本数目固定,求w使得经验风险最小例子:当样本数目很大时,经验风险可以很好的逼近期望风险。sklearn.linear_model.linearRegression1.使用的原创 2017-01-01 13:39:28 · 2023 阅读 · 0 评论 -
1.1 Generalized Linear Models 广义线性模型
函数模型 注:类似y=b*x+a coef_:权值(b) intercept_:截距(a)原创 2017-01-01 12:11:53 · 321 阅读 · 0 评论 -
Scikit-Learn知识框架
scikit-learn六大板块:分类,回归,聚类,数据降维,模型选择,数据预处理数据降维:降低数据的随机变量个数,也称特征选择模型选择:不同模型,不同参数,同样的训练集,验证集,主要包括格点搜索,交叉验证模数据预处理:指数据的特征提取和归一化,重点:注意特征提取和特征选择的区别,特征提取是指将文本,图像等数据转换为可被机器学习的数字变量,特征选择是指去除不重要,重复的特征原创 2017-01-22 17:17:53 · 437 阅读 · 0 评论