机器学习&深度学习算法
文章平均质量分 63
KongX_B
个人主页www.kongxiangbo.com
展开
-
贝叶斯算法详解
在很多应用中,属性集和类变量之间的关系是不确定的。换句话说,尽管测试记录的属性集和某些训练样例相同,但是也不能正确地预测它的类标号。这种情况产生的原因可能是噪声,或者出现了某些影响分类的因素却没有包含在分析中。例如考虑根据一个人的饮食和锻炼的频率来预测他是否有患心脏病的危险。尽管大多数饮食健康、经常锻炼身体的人患心脏病的几率较小,是否充分也是需要论证的课题,这反过来也会给学习问题带来不确定性。贝叶斯原创 2017-09-15 12:24:55 · 917 阅读 · 0 评论 -
时间序列(四)ARIMA模型与差分
ARIMA模型平稳性: 平稳性就是要求经由样本时间序列所得到的拟合曲线 在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳: 严平稳:严平稳表示的分布不随时间的改变而改变。 弱平稳:期望与相关系数(依赖性)不变 未来某时刻的t的值Xt就要依赖于它过去的信息,所以需要依赖性import pandas as pdimport nump原创 2017-12-11 20:41:07 · 37249 阅读 · 5 评论 -
时间序列(三)滑动窗口
滑动窗口就是能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。import matplotlib.pylabimport numpy as npimport pandas as pd指定六百个数据的序列df = pd.Series(np.random.randn(600), index = pd.date_原创 2017-12-11 15:46:41 · 38341 阅读 · 1 评论 -
时间序列(二)数据重采样
数据重采样 时间数据由一个频率转换到另一个频率 降采样 升采样生成一条带随机值的时间序列rng = pd.date_range('1/1/2011', periods=90, freq='D')ts = pd.Series(np.random.randn(len(rng)), index=rng)print(ts.head())2011-01-01 -1.025562 2011-01原创 2017-12-11 15:35:43 · 3080 阅读 · 0 评论 -
时间序列(一)时间序列的生成
时间序列 时间戳(timestamp) 固定周期(period) 时间间隔(interval)date_range¶ 可以指定开始时间与周期 H:小时 D:天 M:月产生时间序列# TIMES #2016 Jul 1 7/1/2016 1/7/2016 2016-07-01 2016/07/01rng = pd.date_range('2016-07-01', periods = 1原创 2017-12-11 15:29:29 · 10867 阅读 · 2 评论 -
Python常用函数与技巧总结(一)
一、map(function,iterable,…..)作用:将iterable中的每一个元素应用function方法处理,将结果作为list返回 如: def add100(x): return x+100 hh=[11,22,33] a=map(add100,hh) print(list(a))如:def abc(a,b,c): return a*10000+b*10原创 2017-11-04 09:02:50 · 870 阅读 · 0 评论 -
集成算法-Xgboost
Xgboost其实是将弱分类器组合起来的一种算法 核心在于加入新分类器后提升预测能力 惩罚项:欧米伽ft 其中γ是惩罚力度,T是树的个数,w是权重 Xgboost Python实例: 数据集展示: import xgboost# First XGBoost model for Pima Indians datasetfrom numpy import loadtxtfrom xgb原创 2017-09-12 21:53:05 · 690 阅读 · 0 评论 -
决策树算法详解(3)
from sklearn.tree import DecisionTreeClassifier# 1.criterion gini or entropy# 2.splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)# 3.max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所原创 2017-09-12 20:22:17 · 463 阅读 · 0 评论 -
决策树算法详解(2)
Python决策树原生版参考#encoding:utf-8import mathdef createDataSet(): #训练数据集 dataSet=[['young','myope','no','reduced','no lenses'], ['young','myope','no','normal','soft'],转载 2017-09-12 20:18:25 · 428 阅读 · 0 评论 -
决策树算法详解(1)
使用决策树解决分类问题,例如年龄在30为分界点第一次选择,第二个决策点是长相,第三个决策点是收入,在收入中等的时候还考虑是否是公务员,这就是一颗决策树引入熵和基尼系数两个概念熵其实就是混乱度,混乱度越小越好,越清晰,所以每次划分都要让熵尽可能最小,让信息增益最大。 比如我们有如下的十四条数据,我们利用这些数据来构造决策树共有4个特征和1个主类别,构造决策树到底要用哪个特征当做根节点呢? 第一步要原创 2017-09-12 20:14:16 · 2463 阅读 · 0 评论 -
梯度下降原理
梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。顾名思义,梯度下降法的计算过程就是沿梯度下降的方向求解极小值(也可以沿梯度上升方向求解极大值)。 其迭代公式为 ,其中 代表梯度原创 2017-09-12 16:57:31 · 867 阅读 · 0 评论 -
自然语言处理-Word2Vec
拼音检查,关键词检索 文本挖掘(产品价格、日期、时间、地点、人名、公司名) 文本分类 机器翻译 客服系统 复杂对话系统A BC D EF N-Gram模型 指定N等于几就是跟前面几个词相关神经网络模型 输入层,投影层 Hierarchical Softmax原创 2017-09-28 10:03:57 · 7520 阅读 · 0 评论 -
回归模型-逻辑回归
逻辑回归算法 逻辑回归 sigmod函数逻辑回归其实是分类算法,而且是典型的二分类问题 逻辑回归可以把数值都映射成0和1中 theate乘x 带入到sigmod函数中便能映射在01范围内 与线性回归差不多也要求导梯度下降原理 梯度求导反方向就是下降的方向逻辑回归python:import pandas as pdimport matplotlib.pyplot as pltadmiss原创 2017-09-11 19:46:12 · 369 阅读 · 0 评论 -
回归模型-线性回归算法
线性回归算法问题分为有监督问题和无监督问题两类 当用到标签来划分的时候就是有监督问题,当没有用标签值的时候就是无监督问题。线性回归求解的结果是值 比如: 根据工资和年龄来预测出一个具体的值,根据工资和年龄预测出贷款额度 回归和分类是两个问题,分类的话可能得到的结论是是否银行会借钱给你。可以把两个特征分别用x1和x2来表示,每个特征的影响程度是不一样的 预测值与真实值之间存在误差ξ 通常我原创 2017-09-11 17:48:37 · 1019 阅读 · 1 评论 -
分类算法-支持向量机(SVM)
支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。在机器学习中,支持向量机(S原创 2017-09-16 15:49:10 · 4183 阅读 · 0 评论 -
时间序列(五)股票分析
首先导入相关模块import pandas as pdimport pandas_datareaderimport datetimeimport matplotlib.pylab as pltimport seaborn as snsfrom matplotlib.pylab import stylefrom statsmodels.tsa.arima_model import ARIM原创 2017-12-11 21:23:44 · 12534 阅读 · 5 评论