CS229
文章平均质量分 84
Light_blue_love
这个作者很懒,什么都没留下…
展开
-
CS229 Lecture 20
CS229 Lecture 20POMDPs(Partially Observed MDPs)Policy searchReinforcePagasusconclusion回顾st+1=Ast+Bat+wts_{t+1}=As_t+Ba_t+w_tst+1=Ast+Bat+wtyt=Cst+vty_t=Cs_t+v_tyt=Cst+vtAt+1:at+1=LtstA_{t+1}:a_{t+1}=L_ts_tAt+1:at+1=Ltst在LQR问题中,因为噪声原创 2021-05-15 21:33:24 · 188 阅读 · 0 评论 -
CS229 Lecture 19
CS229 Lecture 19Debugging RL algorithmDifferential Dynamic Programming (DDP)Kalman FilterLinear Quadratic Gaussian (LQG)原创 2021-05-09 19:10:32 · 250 阅读 · 0 评论 -
CS229 Lecture 18
CS229 Lecture 18state-action rewardFinite-horizon MDPsLinear dynamic SystemLinear Quadratic Regulation(LQR)Discrete Ricatti equations回顾马尔可夫决策过程定义为:MDP(S,A,{Psa},γ,R)MDP(S,A,\{P_{sa}\},\gamma,R)MDP(S,A,{Psa},γ,R),其中: &nbs原创 2021-05-02 20:31:39 · 289 阅读 · 0 评论 -
CS229 Lecture 17
CS229 Lecture 17Continuous state MDPs1. Discretization2. Value function approximation原创 2021-04-24 15:15:52 · 191 阅读 · 0 评论 -
CS229 Lecture 16
CS229 Lecture 16强化学习马尔可夫决策过程(MDPs)value functionvalue iterationpolicy iterationMarkov Decision ProcessMDP(S,A,,γ,R)MDP(S,A,,\gamma,R)MDP(S,A,,γ,R)SSS对应状态集合AAA对应动作集合PsaP_{sa}Psa是一个状态转换分布∑Psa(c)=1,Psa(s)≥0\sum P_{sa}(c)=1,P_{sa}(s)\geq0∑Psa(c原创 2021-04-05 13:34:34 · 143 阅读 · 0 评论 -
CS229 Lecture 15
CS229 Lecture 15Singular Value Decomposition(SVD)Independent Component Analysis(ICA)原创 2020-08-16 12:43:36 · 255 阅读 · 0 评论 -
CS229 Lecture 14
CS229 Lecture 14课程要点:Factor Analysis - EM stepPrincipal Components Analysis (PCA)原创 2020-08-02 18:03:57 · 202 阅读 · 0 评论 -
CS229 Lecture 13
CS229 Lecture 13课程要点:Mixture of GaussiansNative of BayesFactor AnalysisGaussians Distribution原创 2020-07-12 18:07:59 · 320 阅读 · 0 评论 -
CS229 Lecture 12
CS229 Lecture 12课程要点:无监督学习聚类(K-Means)Mixtures of GaussiansJensen’s InequalityEM(Expectation Maximization)Loading!原创 2020-06-27 23:20:43 · 370 阅读 · 0 评论 -
CS229 Lecture 11
CS229 Lecture 11课程要点:Bayesian statistics and regularizationOnline LearningActive for apply ML Algorithm贝叶斯统计和正则化上节课讲了如何通过特征选择减少特征数目,进而降低算法出现过拟合的风险,本节会介绍另一种降低过拟合的方法,即正则化,这种方法不会减少特征的数目。前面讲述过线性回归其通过最大似然的方式求解θ\thetaθmaxθ ∏i=1mp(y(i)∣x(i);θ)\matho原创 2020-06-20 22:48:18 · 251 阅读 · 0 评论 -
CS229 Lecture 10
CS229 Lecture 10课程要点:VC 维模型选择-交叉验证特征选择回顾上节课推论:假设H\mathcal{H}H的大小为kkk且γ\gammaγ和σ\sigmaσ固定,那么对于在至少1−σ1-\sigma1−σ的概率下ε(h^)≤minh∈Hε(h)+2γ\varepsilon(\hat h)\le min_{h\in \mathcal{H}}\varepsilon(...原创 2019-10-09 22:55:45 · 312 阅读 · 0 评论 -
CS229 Lecture 2
CS 229 Lecture 2本节课要点:线性回归(Linear Regression)梯度下降(Gradient Descent)Normal Equation符号定义符号含义mmm表示样本数目nnn表示特征数目xxx表示输入变量/特征yyy表示输出变量/目标变量(x,y)(x,y)(x,y)表示一个训练样本(x(i...原创 2019-07-14 13:50:44 · 200 阅读 · 0 评论 -
CS229 Lecture 3
CS229 Lecture 3课程要点Linear RegressionLocally Weight RegressionProbabilistic interpretationLogistic RegressionDigression: perceptron Learning欠拟合:拟合出来的函数未能较好的反应出数据的特征,一般欠拟合反应在训练过程中,训练得到的误差很大。过...原创 2019-07-18 23:49:07 · 225 阅读 · 0 评论 -
CS229 Lecture 4
CS229 Lecture4这节课听的也是不太懂,先把笔记记下来课程要点:牛顿方法广义线性模型指数分布族多项式分布牛顿方法牛顿方法提供了一种求解极值的方法,它需要迭代的次数会较梯度下降、上升之类的算法少很多。上图中左子图中有函数f(x)f(x)f(x)要求解其与xxx轴的交点,一种方法是选一点x0x_{0}x0,计算其在对应的f(x0)f(x_0)f(x0),过(x0...原创 2019-07-22 00:00:06 · 229 阅读 · 0 评论 -
CS229 Lecture 5
CS229 Lecture 5本节课重点:Generative Learning algorithmsGaussian discriminant analysisNaive BayesLaplace smoothing如果一个算法目的是学习p(y∣x)p(y|x)p(y∣x)或者直接学习根据xxx预测数据的标签{0,1}\{0,1\}{0,1}。这类学习算法称为判别学习算法(di...原创 2019-08-07 23:46:29 · 203 阅读 · 0 评论 -
CS229 Lecture 6
CS229 Lecture 6本节课重点Naive Bayes神经网络支持向量机回顾上节课的内容:将一封邮件表示成一个向量[10⋮1⋮]\begin{bmatrix}1\\0\\\vdots\\1\\\vdots\end{bmatrix}⎣⎢⎢⎢⎢⎢⎢⎡10⋮1⋮⎦⎥⎥⎥⎥⎥⎥⎤,这个向量的长度为字典的大小,这个向量中的数字只能为0和1,即存在或者不存在。将其表示为生成学...原创 2019-08-23 23:40:29 · 193 阅读 · 0 评论 -
CS229 Lecture 7
CS229 Lecture 7课程要点:最有边界分类原始/对偶问题原始/对偶优化问题(KKT)支持向量机对偶问题核方法支持向量机的函数hw,b(x)=g(wTx+b)h_{w,b}(x)=g(w^Tx+b)hw,b(x)=g(wTx+b),g(z)={1if  z≥ &ThinSpa...原创 2019-09-03 15:07:04 · 214 阅读 · 0 评论 -
CS229 Lecture 8
CS229 Lecture 8课程要点:kernelssoft marginSMO algorithm原始优化问题:minw,b  12∣∣w∣∣2\mathop {\min }\limits_{w,b}\,\,\frac{1}{2}||w||^{2}w,bmin21∣∣w∣∣2s.t&ThinSpace...原创 2019-09-07 22:50:49 · 266 阅读 · 0 评论 -
CS229 Lecture 9
CS229 Lecture 9课程要点学习理论偏差与方差就上面的三幅函数与数据的拟合图像来说,左图明数据呈现出二次函数形式而拟合函数却是一次函数θ0+θ1x\theta_0+\theta_1xθ0+θ1x,未能拟合出数据的特征,因此会造成训练误差很大,进而泛化误差就更不可靠。处于欠拟合状态,有较高的偏差 (high bais)。而右图使用了y=θ0+θ1x+⋯+θ5xy=\...原创 2019-09-15 11:27:15 · 219 阅读 · 0 评论 -
CS229 Lecture 1
CS229 Lecture 1监督学习学习理论无监督学习强化学习监督学习:学习算法是有标准答案的,即训练数据是有对应的标签的。如线性回归,分类算法都属于监督学习。无监督学习:即学习算法对于学习的结果是否正确是没有标准答案,这类学习主要是通过对数据特征的学习,发现数据中潜在的规律。例如聚类算法。强化学习:该学习是一个不断强化的过程,并不是一次性的。这类学习算法做出相应的动作,系统是...原创 2019-07-13 10:56:42 · 313 阅读 · 0 评论