静_流-CSDN博客

翻译如何为文本分类问题选择最优模型

文本分类的应用现状：垃圾邮件分类情感分析个性化推荐舆情分析影视评价新闻主题文本分类中的常见误区：1. 深度模型一定由于传统的机器学习模型吗？模型效果取决于训练数据集大小，算法，和样本的多样性：数据集越大，越适合深度学习模型；算法的设计会对结果产生直接影响；模型的泛化2. 在验证集上准确率高在线上准确率就高吗？训练数据集的大小是否过拟合其他因素3. 准确...

2019-02-27 13:58:06 1734

原创 TensorFlow基础（1）特点&安装&基本用法

TensorFlow介绍TensorFlow是一个采用数据流图（data flow graphs），用于数值计算的开源软件库。TensorFlow 最初由Google大脑小组（隶属于Google机器智能研究机构）的研究员和工程师们开发出来，用于机器学习和深度神经网络方面的研究，但这个系统的通用性使其也可广泛用于其他计算领域。它是谷歌基于DistBelief 进行研发的第二代人工智能学...

2018-09-07 14:39:54 4814

原创机器学习（统计学习方法）基础知识

统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科。统计学习也称为统计机器学习（statistial machine learning）。统计学习分为监督学习，非监督学习，半监督学习和强化学习。本文内容以监督学习为主。实现统计学习方法的步骤如下： 1）得到一个有限的训练数据集合； 2）确定包含所有可能的模型的...

2018-08-30 18:14:22 6678

原创强化学习中常用的随机策略

随机策略可以理解为是概率分布，常用的有以下几种：贪婪策略π∗(a|s)={1　　if　a=arga∈Amaxq∗(s,a)0　　otherwiseπ∗(a|s)={1　　if　a=arga∈Amaxq∗(s,a)0　　otherwise\pi_*(a|s)=\begin{cases}1　　if　a=arg_{a \in A} max q_*(s,a)\\0　　otherwise\\...

2018-08-21 16:14:32 10024 2

原创强化学习之无模型方法二：时间差分

时间差分方法(TD)是强化学习中最核心的也是最新奇的方法，混合了动态规划(DP)和蒙特卡洛方法(MC) - 和MC类似，TD从历史经验中学习 - 和MDP类似，使用后继状态的值函数更新当前状态的值函数TD属于无模型方法，未知P和R，同时应用了采样和贝尔曼方程，可以从不完整的片段中学习，通过估计来更新估计时间差分评价时间差分策略评价算法目的：给定策略ππ\pi，求其对应的...

2018-08-14 23:51:55 3529

原创 Spark学习笔记（合集）

Part1：RDD操作 Part2：RDD键对操作 Part3：数据读取与保存 Part4：Spark进阶编程 Part5：集群运行Spark Part6：Spark调优与调试 Part7：Spark SQL

2018-08-03 14:47:01 778

转载 Markdown 语法攻略

参考： 1. https://www.zybuluo.com/codeep/note/163962 2. https://blog.csdn.net/qq_37656398/article/details/79308997 3. https://www.jianshu.com/p/a0aa94ef8ab2 4. https://blog.csdn.net/zdk930519/article...

2018-08-03 14:32:03 211

原创 FM系列算法解读（FM+FFM+DeepFM）

https://blog.csdn.net/jiangjiang_jian/article/details/80631180

2018-08-03 14:27:24 75137 3

原创 FTRL算法

概述GBDT算法是业界比较好用筛选特征的算法，在线学习考虑效率和数据量，经常用GBDT离线筛选特征，输入到在线模型进行实时训练，如今比较好用的方法有两个：FTRL和FM，下面将深入介绍各自的原理以及应用的案例离线特征筛选：GBDT线上模型（1）：FTRL点击率预估（CTR）问题是计算广告中非常重要的模块，通过预估用户对广告的点击概率来对广告进行排序，进而提升广告效果和收益效率。对于...

2018-08-01 14:27:53 6831

原创关于信息熵的指标

信息熵信息论中的熵，又叫信息熵，用来衡量一个随机变量的不确定程度。熵越大，不确定性越大。 H(X)=E[I(xi)]=−∑n−1NP(xi)log(P(xi))H(X)=E[I(xi)]=−∑n−1NP(xi)log(P(xi))H(X)=E[I(x_i)]=-\sum_{n-1}^NP(x_i)log(P(x_i))交叉熵如果一个随机变量X服从p(x)分布，q(x)用于近似p(x)...

2018-07-31 15:07:01 5845

原创强化学习之无模型方法一：蒙特卡洛

无模型方法（model-free）无模型方法是学习方法的一种，MDPs中如果P,R未知，则用无模型方法。该方法需要智能体与环境进行交互（交互的方式多样），一般采用样本备份，需要结合充分的探索。由于未知环境模型，则无法预知自己的后继状态和奖励值，通过与环境进行交互然后观察环境返回的值。本质上从概率分布Pass′Pss′aP_{ss^{'}}^a和RasRsaR_s^a中进行采样。对于随机变量...

2018-07-30 17:23:03 6940

原创强化学习之动态规划

动态规划（Dynamic Propramming）当一个精确的环境模型时，可以用动态规划去解决。总体来说，就是将一个问题分解成子问题，通过解决子问题来解决原问题。动态指针对序列问题，规划指优化，找到策略。动态规划解决的问题具备两种性质：最优子结构满足最优性原理最优的解可以被分解成子问题的最优解交叠式子问题子问题能够被多次重复子问题的解要能够被缓存并再利用MDPs满...

2018-07-26 16:33:48 3946

转载【强化学习】MDP案例

【机器人寻找金子案例】强化学习类文件grid_mdp.pyimport loggingimport numpyimport randomfrom gym import spacesimport gymlogger = logging.getLogger(__name__)class GridEnv(gym.Env): metadata = { 're...

2018-07-26 10:58:15 2565

原创强化学习之马尔科夫过程

马尔可夫过程马尔可夫决策过程（Markov Decision Processes,MDPs）是对强化学习问题的数学描述。几乎所有的RL问题都能用MDPs来表述：最优控制问题可以描述为连续MDPs部分观测环境可以转化成POMDPs赌博机问题是只有一个状态的MDPs本文中介绍的MDPs是在全观测的环境下进行的！马尔科夫性如果在t时刻的状态StStS_t满足如下等式，那么...

2018-07-25 18:03:44 5157

原创强化学习之概述

什么是强化学习？面向智能体的学习–通过与一个环境进行交互来实现目标通过试错和优化进行学习–用试错后的奖励（或惩罚）进行学习强化学习 vs 其他机器学习机器学习监督学习：有即时标签的学习（如分类，回归等）监督学习要求带标签的数据，这些数据是比较昂贵的标注数据也是一门学问非监督学习：无标签学习（聚类问题等）无标签数据的数量非常...

2018-07-23 15:40:47 5811