machine-learning
文章平均质量分 55
cuixuange
https://github.com/cuixuage
展开
-
bert code阅读笔记
参考:参数量计算https://zhuanlan.zhihu.com/p/144582114为什么bert中的设置为: size_per_head * num_heads = 768https://github.com/google-research/bert/issues/316原创 2020-09-21 18:36:42 · 293 阅读 · 0 评论 -
Bert-paper reading
论文原文:https://arxiv.org/abs/1810.04805代码实现:https://github.com/google-research/bert按照原文结构记录总结#1.Introductionelmo = feature_based approach,双层双向LSTMGPT = fine-tuning approach,transformer decoder缺点:...原创 2020-05-04 20:30:23 · 413 阅读 · 2 评论 -
transformer-paper reading
论文原文: https://arxiv.org/abs/1706.03762代码实现:https://github.com/Kyubyong/transformer按照原文结构记录总结#1.Model Architecture1.1.Encoder&Decoder stacksstacks = 6 transformersublayers = multi-head attent...原创 2020-05-02 16:57:22 · 494 阅读 · 0 评论 -
optimizer个人总结
optimizer = SGD + Learning Rate scheduler机器之心:Adagrad & 优化器发展历程Paper: An overview of gradient descent optimization algorithms简书:Adam知乎:文本分类问题常见的性能&效果Tricks引用:1.在文本分类任务中,有哪些论文中很少提及却对性能有重...原创 2020-04-11 21:03:05 · 375 阅读 · 0 评论 -
bert笔记
来自于李宏毅老师的bert课程,http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html0. 前置基础word can have multiple sense.e.g. bank is word type, can be multiple word tokenscontextalized embedding: 同一个word type,在不...原创 2020-03-09 21:07:15 · 195 阅读 · 0 评论 -
transformer笔记
来自李宏毅老师的课程笔记,http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML19.html0.前置基础RNN: 优点:可以获取全局信息 缺点:不能并行计算CNN: 优点:GPU并行计算 缺点:bigram仅能观察到本地信息self-attention层:x1: input sequence itema1: item embeddingq1...原创 2020-03-09 21:05:31 · 260 阅读 · 0 评论 -
RLAI读书笔记-第十三章-Policy Gradient Methods
policy gradient Methods Model Free的策略梯度 直接策略搜索 值函数:策略评估+策略改善 ==》值函数最优,策略就是最优的的 ==》value-based method 策略搜索: 对于策略π进行参数化表示 π(a|s,θ)==》policy-based method13.1 Policy Approximation https://zhuanlan...原创 2018-09-03 14:25:25 · 284 阅读 · 0 评论 -
CS231n-课程作业总结
来自斯坦福CS231n课程 李飞飞主讲 我主要是对Notes部分的小总结 包括图像基础,神经网络Backprop,卷积层做了基础的了解 还有参数的调整,解决过拟合的问题等等 ·0_图像基础 1.k-Nearest-Neighber: 最相似的前k个元素中 找到属于同一类别最多的label 2.高维数据的PCA降维 再使用KNN 3.参数K值 向量距离的L1(差值Sum) or...原创 2018-09-12 14:47:01 · 450 阅读 · 0 评论 -
CS231n-课程总结
来自斯坦福CS231n课程 李飞飞主讲 我主要是对Notes部分的小总结 包括图像基础,神经网络Backprop,卷积层做了基础的了解 还有参数的调整,解决过拟合的问题等等0_图像基础1.k-Nearest-Neighber: 最相似的前k个元素中 找到属于同一类别最多的label2.高维数据的PCA降维 再使用KNN3.参数K值 向量距离的L1(差值Sum) or L2(差值平方和)定...原创 2018-09-19 11:04:09 · 362 阅读 · 0 评论 -
DeepReinforcementlearning:AnOverview paper总结
Deep Reinforcement Learning: An OverviewIntroduction高维的input-data in learning-control-policies in complex RL environment2,3节 deep RL内容,介绍三种常用的Deep learning结构4节 监督/无监督model in deep RLReinforcement...翻译 2018-09-25 20:09:56 · 1040 阅读 · 0 评论 -
DQN paper 总结
已读paperPlaying Atari with Deep Reinforcement LearningHuman-level control through deep reinforcement learningdeep-Q-NetWork思考1.value-function是如何使用的2.算法伪代码3.异策略 行动策略(产生新样本数据的策略,例如e-greedy) 和 评估策略...原创 2018-10-02 16:01:49 · 660 阅读 · 0 评论 -
DQN若干种变型及实现
测试环境 gym cartPole-vo代码实现https://github.com/cuixuage/Reinforcement_Learning/tree/master/Pytorch_basic1.Nature DQN延迟target NetWork更新相当于用前期一定步数的reward来计算当前真实值2.Double DQN为什么我测试效果不如DQN好?https://bl...原创 2018-10-05 21:14:30 · 4468 阅读 · 0 评论 -
机器学习基石-林轩田-课程总结
https://github.com/cuixuage/Machine_LearningLecture DirectoryWhen can Machines Learn?1.机器学习问题2.二分类3.不同的ML类型4.可行性hw0: 条件概率 and 贝叶斯公式hw1: Perceptron and Pocket algorithm实现Why can Machines Lea...原创 2019-01-18 18:31:09 · 233 阅读 · 0 评论 -
机器学习技法-林轩田-课程总结
https://github.com/cuixuage/Machine_LearningLecture DirectoryHow can machines learn by Embedding numerous features1.线性SVM,推导非条件目标,QP求解2.对偶SVM,非线性问题消除Z域d+1依赖3.kernel trick仅在X域计算4.soft-margin,ξn...原创 2019-01-18 18:32:28 · 561 阅读 · 0 评论 -
kaggle kernel 学习笔记
学习链接https://www.kaggle.com/learn/intermediate-machine-learning3.Missing Values1.drop columns# Get names of columns with missing valuescols_with_missing = [col for col in X_train.columns if X_trai...原创 2019-05-12 22:26:49 · 1641 阅读 · 0 评论 -
RLAI读书笔记-第十二章-Eligibility Traces
12 Eligibility Traces 10章的近似函数扩展 Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223 1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小 2.Vπ(St) 即Gt通过本章的λ-return计算 3. ▽wV^(S,W) 通过资格迹来优化看第九章 资格迹==优化后的函数微分(...原创 2018-09-03 14:24:21 · 361 阅读 · 0 评论 -
RLAI-第十二章-EligibilityTrace实践
Sarsa(λ)实践 Model-Free先验知识 https://zhuanlan.zhihu.com/p/28108498 1.资格迹定义的来源公式 chapter12 2.定义 E0(s,a)=0 Et(s,a) = γ * λ * Et-1(s,a) + 1 其中(St=s,At=a) 3.引入资格迹的Q值更新公式: Q(s,a) = Q(s,a) + α * {Rt...原创 2018-09-05 17:02:40 · 300 阅读 · 0 评论 -
量化投资的线性回归
多元线性回归 预测平安银行的股价利润欢迎访问: https://github.com/cuixuage/Machine_Learning#coding=utf-8import numpy as nyimport pandas as pdimport matplotlib as mpimport scipy as spimport sklearn as sl# 本金10万元 初始股票价原创 2017-11-20 11:32:10 · 1243 阅读 · 0 评论 -
Django 垃圾短信分类
背景: 给出任意一条短信,判断其是否为垃圾短信 https://github.com/cuixuage/Machine_Learning 模型源码 Django交互源码 对于垃圾短信分类问题做一个demo展示 1.前端ajax+后端Django 2.训练的数据模型的存放在static中;单例模式保证了训练模型只会加载一次 3.缺点: 第一次打开页面花费时间较长,需要等待server加原创 2017-12-16 22:30:31 · 897 阅读 · 0 评论 -
RLAI读书笔记-第五章-Monte Carlo
Monte Carlo Methods 无模型的蒙特卡洛学习方法 Model free idea:未知转移概率矩阵,未知state-value函数 == 通过模拟计算得到(有限的情节任务) Monte Carlo使用模拟解决Markov Decision Process5.1 MC Prediction MC基于抽样数据计算结果 e.g.游戏类都适合:完全信息博弈游戏,像围棋、...原创 2018-08-26 16:38:12 · 380 阅读 · 0 评论 -
Q-Learning
Q-Learning off-policy1.公式解读 https://www.zhihu.com/question/26408259 2.公式=>矩阵示例 房间最优路径问题 https://blog.csdn.net/lwb102063/article/details/52734861 http://mnemstudio.org/path-finding-q-learnin...原创 2018-08-20 16:08:42 · 377 阅读 · 0 评论 -
RLAI读书笔记-第六章-Temporal-Difference
Temporal-Difference Learning (单步 one-step)时序差分学习 无模型Model-Free RL 理解如何结合 DP+MC == 在当前episode尚未结束,就进行估计当前值函数 6.1 TD Prediction 先验知识: bootstraping 自举算法 DP=当前state value依赖于t+1时刻 V(St) = Eπ{Rt...原创 2018-08-27 20:20:51 · 246 阅读 · 0 评论 -
RLAI读书笔记-第三章-MDP
目标: 有限的马尔科夫决策过程 解决大部分的强化学习框架MDP Markov Decision Processes3.1 agent-environment interface 介绍agent和env之间的交互过程: St +At 得到Rt+1 P70 实际应用中哪些被认为是env 哪些被认为是agent P74 状态转移矩阵 或者 转换矩阵以及Reward的初始设计3.2...原创 2018-08-23 16:17:50 · 235 阅读 · 0 评论 -
RLAI读书笔记-第七章-n-Step TD
n-step Bootstraping7.1 prediction example P167 大规模的随机行走T(λ)向前 向后观点 7.2 sarsa control7.3 off-policy Learning 重要性采样 7.5 off-policy without importantce Sampling总结 频率启发 frequency Heuristic 将...原创 2018-08-28 19:18:21 · 370 阅读 · 0 评论 -
RLAI读书笔记-第九章-On-policy Prediction with Approximation
On-policy Predicttion with Approximation 策略π的状态价值的近似值值函数逼近==>在有限状态集推广到更大的集合并有良好近似效果 (table lookup对于大规模数据很难解决) V线性函数,W特征权重向量 V神经网络,W layers之间的链接权重 V决策树,W split points?9.1 value-function App...原创 2018-08-31 21:26:16 · 195 阅读 · 0 评论 -
RLAI读书笔记-第十章-On-policy Control with Approximation
On-policy Control with Approximation 策略的行动状态价值 Q(S,A)的近似值Q(S,A,W)10.1 Episode Semi-gradient Control e.g. 半梯度的one-step Sarsa 伪代码P266 state-action的状态的价值的近似 动作离散 的example:—小车上山 解释: https://zhuan...原创 2018-08-31 21:27:13 · 229 阅读 · 0 评论 -
RLAI读书笔记-第二章-Multi-armed Bandits
目标:balancing exploration(探索) exploitation(贪心利用)别人的读书笔记 mark: https://www.cnblogs.com/steven-yang/p/6476034.html2.2 action-value method Qt(a) = avg(时间t以前所有动作A=a的Reward)平均值 At = Max(Qt(a))当前时间...原创 2018-08-21 20:32:58 · 214 阅读 · 0 评论 -
RLAI读书笔记-第四章-Dynamic programing
Dynamic Programming 动态规划求解MDP4.1 policy Prediction 策略 状态到行为的映射4.2 policy Improvement 最优策略 问题: 表格计算K=3的值 怎么计算出来的? P87 计算K=3是 序号为1的表格 注意: 边界外的Vk自身(意味着原地不动) -2.4 = 0.25 * (-1 + 1.0 * 0)...原创 2018-08-24 21:31:37 · 218 阅读 · 0 评论 -
RLAId读书笔记-第八章-Planning and Learning
Planning and Learning with Table 向前搜索 采样 8.1 models and Planning distribution model –返回所有可能的Action以及其概率 sample model– 根据概率返回一种行为 样本模型的数学公式: R,S’ = model(S,A) planning model==动态规划 启发式查询 都是通过模型...原创 2018-08-29 21:30:13 · 281 阅读 · 0 评论 -
RLAI-第三章-gridWorld实践
第三讲 方格世界 DP 初始情况 1.只有移动到指定位置,Reward=1.否则Reward=-1 2.States-space(4*4 终止的方格+非终止) 3.Action-space(n,e,s,w) 4.转移概率(1/4 感觉这就是相当于指定Action的策略) 5. 折扣因子γ=1 目的 给定某一策略(比如转移概率),计算每一个方格最终的状态价值 公式 ...原创 2018-09-04 20:09:52 · 2270 阅读 · 0 评论 -
RLAI-第六章-TD-Sarsa(0)实践
TD思想中的Sarsa实现 https://zhuanlan.zhihu.com/p/28133594 Sarsa是on-policy的 action初始拥有自己的策略d 我们需要优化策略π 初始情况 1.终止点Reward=1,否则Reward=-1 2.Sarsa需要维护Q(s,a)即state-value函数。在状态S下采取动作A能获取对应value 目的 Ag...原创 2018-09-04 20:11:25 · 267 阅读 · 0 评论 -
感知器算法
**感知器算法: 线性判别函数 或者说广义的线性判别曲面 进行二分类或者多分类的代码实现 以及使用iris_data 的感知机测试代码 不断地迭代赏罚 为后面的梯度下降方式做铺垫** -github:https://github.com/cuixuage/Machine_Learning 参考资料 https://ljalphabeta.gitbooks.io/python-/conte原创 2017-10-18 15:53:57 · 4779 阅读 · 2 评论