- 博客(270)
- 资源 (3)
- 收藏
- 关注
转载 Could not find a version that satisfies the requirement cryptography (from pymysql) (from versions:
今天使用pip安装pymysql时出现如下错误:Could not find a version that satisfies the requirement cryptography (from pymysql) (from versions: )No matching distribution found for cryptography (from pymysql)使用pip安装其...
2020-02-01 23:29:59 623
原创 git 使用记录
上传 Task 1,上传文件,本地 cmd>> git config --global user.email 17768058801@163.com cmd>>git config --global user.email syyxtl cmd>> git init create two files cmd>> git add . cmd>> git commit -m "some tips" cmd&...
2021-03-07 12:51:02 259
转载 pytorch 输出网络结构(fine-tune 常用)
sudo pip3 install torchsummaryimport torchvision.models as modelsfrom torchsummary import summarydevice = torch.device('cuda' if torch.cuda.is_available() else 'cpu')vgg = models.vgg19().to(device)summary(vgg, (3, 224, 224))#print(vgg)
2020-12-22 10:32:59 1520 1
原创 强化学习: Natural Gradient Descent
一、ProblemsPolicy gradient 存在不少问题:比如:1、Poor sample efficiency as PG is on-policy learning,2、Large policy update or improper step size destroy the training 1 This is different from supervised learning where the learning and data are independent...
2020-09-02 23:49:30 946
原创 强化学习 策略梯度方法
一、策略估计方法 行为控制到目前为止,几乎所有的方法都是基于动作-价值函数的方法,它们都是先学习动作价值函数,然后再根据估计的动作价值函数选择动作,如果没有动作价值函数的估计,那么策略也将不再存在。下面会讲直接学习参数化的策略,这里给出一个例子:如果在上述游戏中,游戏者在灰色格子中难以分辨自己的位置,那么如果基于价值函数的方法会得到如下的策略:在灰色的格子上要么都是左,要么都是右,这很显然不能拿到金币,但如果直接学习策略函数,你用参数 theta 去估计策略函数pi,让他得到行动的.
2020-08-30 00:09:52 871
原创 Double Q-Learning 阅读记录
1、Overoptimism problem && maximization bias problemQ学习会带来很多问题,比如会导致最大化偏差问题,使得估计的动作价值偏大。2、Double DQNdouble DQN就是为了解决上面的问题,Double DQN很简单,对于DQN的改变如下所示:简单的理解是double-DQN,由于DQN中已经存在了target network,不需要构造额外的网络了,直接用target network去代表第二个Q表,其更新的.
2020-08-29 20:31:24 449
原创 DQN:强化学习 阅读记录
1、创新点1:Experience Replay与普通的TD-r不同的是,DQN采用了一种 experience replay的方式,experience replay会存储所有时刻agent的经验与回报。存储这些replay的数组结构被称为 replay memory。如上图所示,每一个replay memory被记录为(a, s, r, s)的元组,每次训练将随机选择memory中的一个进行训练。之所以这样做是因为:深度学习的输入是固定的,replay memory将记录保持为(a, .
2020-08-29 12:59:04 287
原创 强化学习 线性方法特征构造
线性方法是一种很好的价值函数拟合方式,不仅是因为他们有收敛性的保证,另外,他们在数据和计算方面都比较高效。然而,是否会具有这样的优势,即效果是否会很好,很大程度上取决于我们如何选取用来表达状态的特征。选择合适于任务的特征是将先验知识加入到强化学习系统的一个重要方式,直观的说,这些特征应该提取状态空间中最通用的信息。例如我们要对几何对象进行评估,那么我们可以选取形状,颜色,大小或者功能作为特征。如果我们正在评估一个移动机器人的状态,那么特征应该包括位置、电池电量、最近的声纳读数等等。线性形式.
2020-08-16 12:18:51 594
原创 强化学习 学习过程
https://github.com/syyxtl/RL-learn我会不断学习RL,然后跟着书籍编写RL学习代码:目前完成:K-bandits:了解ep-greedydp,dp2:dp methodrandom_walk:MC,TD(0) (doing)cliff_walking_sarsa, cliff_walking_Qlearning:sarsa,Q-learningrandom_walk_1000:linear-function fit method(doing..
2020-08-11 10:22:17 471
原创 强化学习 Sarsa & Q-learning:on & off policy策略下的时序差分控制
一、on policy & off policy所有的学习控制都面临着一个困境,他们希望学到的动作可以使随后的智能体行为是最优的,但为了搜索所有的动作(已找到最优动作),他们需要采取非最优的行动,如何在遵循探索策略采取行动的同时学到最优策略呢?第一种方式是:on policy,这种策略其实是一种妥协——他并不是找到最优的策略,而是学习一个接近最优而且扔能进行试探的策略动作值。另一种方式是:off policy,这种方式干脆使用两种策略,一个用来学习并最终称为最优策略,另一个则更加具有试.
2020-08-10 10:24:15 602
原创 强化学习 model free 蒙特卡洛增量 与 TD(0)
时序差分(TD)学习结合了蒙特卡洛方法和动态规划的方式:对于蒙特卡洛方法,其迭代的方式是用episode中所有的样本结果作为更新的目标,如下所示,Gt代表的是时刻t真实的回报,他是有所有根据样本得到。对于时序差分TD(0)则是用了其下一步状态的回报值作为 bootstrap 代替原样本的结果:所以对于蒙特卡洛方式,TD(0)只是改变了一个地方,即用 下一状态得到的真实值 + 下一状态的估计值 v(s+1)乘上一个折扣因子 gamma 代表全样本的sample 结果。这样的好处是,只.
2020-08-07 19:48:22 1294
原创 强化学习 蒙特卡洛模拟 一种model-free的强化学习方法
一、蒙特卡洛方法动态规划方法是建立在模型已知的情况下,但是往往大多数情况下模型是未知的,实际应用中我们不可能完全了解一个环境的所有知识,比如说得出它的状态转移矩阵。这个时候蒙特卡洛算法就派上用场了,它只需要从经验(experience)中去学习,这个经验包括样本序列的状态(state)、动作(action)和奖励(reward)。得到若干样本的经验后,通过平均所有样本的回报(return)来解决强化学习的任务。对于DP我们求解其价值函数V时,其方法是求解在当前状态下后续回报的期望即:蒙特卡.
2020-08-07 15:47:13 1143
原创 强化学习 有限马尔可夫决策过程
一、马尔可夫动力MDP(马尔可夫)是序列决策的经典形式化的表达,其动作action不仅影响当前的即时收益,还影响后续的状态以及未来的收益。MDP是一种通过交互式学习来实现目标的理论框架,进行学习及决策的机器被称为 agent。智能体之外所有与其相互作用的事物都被称为环境 environment。这些事物之间持续进行交互,智能体选择动作,环境对这些动作做出相应的响应,并向智能体呈现出新的状态。环境也会产生一个收益,通常是特定的数值,这就是智能体坐选择过程中最大化的目标(详见上文介绍:https://bl.
2020-07-02 21:58:46 720
原创 强化学习 了解强化学习的目标和回报
一、目标和收益智能体的目标被形式化的表征为一种特殊的信号,被称为收益,他通过环境传递给智能体,收益都是一个单一的标量数值,非正式的说,智能体的目标是最大化其收到的总收益,这意味这需要最大化的不是当前的收益,而是长期积累的收益。简单的说,我们所有的目标或者说目的,都可以被总结为,最大化智能体接受到的标量信号(即收益),累计和的概率期望值。-------使用收益信号来形式化目标是强化学习最显著的特征之一。二、回报和分幕我们已经知道了,智能体的目标就是最大限度地提高长期收益。那么我们应该怎样正式.
2020-07-02 16:34:08 3885
原创 强化学习从K-摇臂老虎机开始
0 K-摇臂老虎机如图所示,我们有几个单臂老虎机,组成一起我们就称作多臂老虎机,那么我们需要制定什么样的策略才能最大化得到的奖励。这里假设每个老虎机奖励的随机分布是不一样的。比如第一个分布,D1这个老虎机的分布大概率落在中间这部分,很小概率在两头的地方。假设用户是知道这些分布的,那么用户应当怎么选择?答案很简单,我们应当选择D5这个老虎机,因为它的平均值最高,而且有很大概率在靠右也就是正数范围内。但现在的问题是,用户实际上是不知道这些老虎机的概率分布的。那么我们需要一次次的尝试,尽可能快速.
2020-07-01 09:31:43 1606
原创 ROI pooling
https://github.com/deepsense-ai/roi-pooling https://github.com/yhenon/keras-spp
2020-06-29 15:20:33 209
翻译 GYM 强化学习 文档 (一)
一、安装 Installation:pip install gym二、环境 Environments:以下是让强化学习运行的最小化的原始案例,首先,我们会初始化一个CartPole-v0(即手推车-杆子游戏的初始化环境) 环境,并渲染他的行为1000次,具体代码如下:[具体运行案例,放到本地环境运行]import gymenv = gym.make('CartPole-v0')env.reset()for _ in range(1000): env.render() e.
2020-06-28 13:31:13 1160
原创 keras 迁移学习 50% — at least 70%
1、从模型中间层级获取特征向量# Step 1 , train a model and # model.save("demo.h5")# Step 2 , load model and watch the coresponding layer namebase_model = load_model('demo.h5')print(model.summary())'''____________________________________________________________.
2020-06-20 14:49:35 310
原创 keras mnist ___ 全连接方式、卷积方式,94.8% __ 96.4%
方式一:全连接方式:from keras.models import Sequentialfrom keras.layers import Reshape, Convolution2D, Activation, MaxPooling2D, Flatten, Densefrom keras.optimizers import SGDclass Inputs(object): def __init__(self): from tensorflow.examples.tutorials.m.
2020-06-17 16:33:27 236
转载 tf中的RNN
https://github.com/tensorflow/tensorflow/blob/r1.2/tensorflow/python/ops/rnn_cell_impl.py一、tensorflow:RNNCell、BasicRNNCell、BasicLSTMCellRNNCell只是一个抽象类,我们用的时候都是用的它的两个子类BasicRNNCell和BasicLSTMCell,对于每一个RNNCell都包含以下的属性的参数:即 inputs, state, scope..
2020-06-05 23:10:49 738
原创 以textCNN为例,搭建属于自己的tf风格的深度学习代码
建议在编写深度学习代码时分成以下几个步骤:Step 1:编写 网络结构 文件Step 2:编写输入文件——读写训练集,测试集样本Step 3:编写 训练网络文件 3.1:调整输入 格式 3.2:具体训练内容——优化函数等第一步:搭建model,即网络的结构,多少个卷积层,多少个池化层,全连接层等等,建议编写一个类如Class TextCNN:import tensorflow as tfimport numpy as npcla...
2020-06-03 22:32:20 364
原创 tf1.X 利用VocabularyProcessor制作词袋
import jiebaimport numpy as npfrom tensorflow.contrib import learnDOCUMENTS = [ '这是一条测试1', '这是一条测试2', '这是一条测试3',]def chinese_tokenizer(docs): for doc in docs: yield list(jieba.cut(doc))# 最长词袋长度,最小频率,分词函数vocab = learn.p..
2020-06-03 22:28:24 247
原创 城市交通:获取地点经纬度
<html><head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <meta name="viewport" content="initial-scale=1.0, user-scalable=no" /> <sty...
2020-05-05 23:54:41 295
原创 数据分析——多重共线性检验
在做线性回归的时候,一般分为以下几个步骤:1、画散点图,简单的查看是否存在线性关系(3D以下)2、线性模型跑一遍试试效果3、其中需要查看以下几个指标: 3.1 正太分布检验 3.1 多重共线性 3.2 变量显著性 3.4 拟合效果4、解释变量上面一篇文章了解了如何利用t检验进行变量的显著性检验,下面着重学习如何进行多重共线性的检验一、辅助...
2020-05-03 11:20:35 52306
原创 数据分析——假设检验
1 t检验t检验,亦称student t检验(Student's t test),主要用于样本含量较小,总体标准差σ未知的正态分布。 换句话说,如果样本量很小的时候,并且你不知道样本的方差,那么你可以用t分布去代表正太分布去做一些统计上的工作。如果方差已知,那么可以直接用正太分布去做统计。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。1.1 一个例子...
2020-05-02 20:24:44 1322 1
原创 python asyncio 异步操作
asyncioasyncio 是用来编写并发代码的库,使用async/await语法。asyncio 被用作多个提供高性能 Python 异步框架的基础,包括网络和网站服务,数据库连接库,分布式任务队列等等。asyncio 往往是构建 IO 密集型和高层级结构化网络代码的最佳选择。asyncio的编程模型就是一个消息循环。我们从asyncio模块中直接获取一个EventLoo...
2020-04-24 22:19:58 614
原创 分布式学习(7)etcd@3@ API v3 gRPC_事务,租约
一、ETCD 之 事务在etcdv3中,事务就是一个原子的、针对key-value存储操作的If / Then / Else 结构,事务提供了一个原语,用于请求归并到一起放在原子块中,例如then/else,这些原子块的执行条件,例如if以key-value存储里的内容为依据。事务可以用来保护key不受其他并发更新操作的修改,也可以构建CAS(Compare And Swap)操作,并以此作...
2020-04-24 10:14:01 762
原创 分布式学习(6)etcd@3@ API v3 gRPC_range,put,deleterange
1 gRPC Services发送到etcd服务器的每个API请求都是一个gRPC。在etcd3中的RPCs会根据功能分类到不同的service中。1.1 Services important for dealing with etcd’s key space include(处理etcd键值空间比较重要的service有以下三点):KV - Creates, updates,...
2020-04-23 21:40:42 817
原创 django 定时任务 django-crontab & APScheduler 使用
1、 pip install django-crontab2、 settings.py INSTALLED_APPS =>INSTALLED_APPS = ( 'django_crontab', ...)3、编写函数3.1、new file under appname, named cron.py3.2、add the following codes in...
2020-04-22 20:07:16 527
转载 分布式学习(5)kafka@1
一、简介kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。1、Topics&logs:一个Topic可以被认为是一类消息,每...
2020-04-01 23:16:08 161
原创 分布式学习(4)hdfs@1
一、简介Hdfs有三个守护进程: 1、NameNode:保存存储文件与数据块的映射关系,并提供文件系统的全景图 2、Secondary NameNode: 3、DataNode:用于维护存储块的数据(数据的存储和获取)Hdfs数据读取流程: 1、客户端身份验证,(a)通过信任的客户端,(b)通过Kerberos等强认证机制来完成 2、客户端访问N...
2020-03-14 19:32:07 323
原创 分布式学习(3)etcd@2@HTTP API v2
一、安装cd $GOPATH/srcmkdir go.etcd.io && cd go.etcd.iogit clone https://github.com/etcd-io/etcd.gitcd etcd./build# testcd bin./etcd --version./etcdctl version二、试运行 ##an example:利用g...
2020-03-09 08:05:07 940
原创 分布式学习(2)etcd@1@goreman
一、什么是goremangoreman是一个go语言编写的多进程管理工具,是对Ruby下广泛使用的foreman的重写(foreman原作者也实现了一个golang版:forego,不过没有goreman好用)相比较monit、supervisor而言要简单的多,而且可以在项目级别管理进程,比较适合开发环境使用。比如快速运行和一项目相关的所有进程,goreman就可以派上用场。coreos的...
2020-03-07 12:38:58 400
原创 Django-restframework 常用记录(JWT,权限)
# js<script type="text/javascript" src="{% static 'js/jquery.cookie.js' %}"></script>$(function() { $('.fa-upload').on('click', function() { $('p').css("display...
2020-03-06 20:57:51 509
转载 分布式学习(1)gRPC python@protobuf_grpc
一、安装gRPC 的安装:$ pip install grpcioProtoBuf 相关的 python 依赖库:$ pip install protobufpython grpc 的 protobuf 编译工具:$ pip install grpcio-tools二、protobuf 文档信息结构体 messagemessage SearchRequest {...
2020-03-04 17:26:44 596
原创 交通-城市规划专业常用——10分钟步行圈(百度API)
// 前台<!DOCTYPE html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="viewport" content="initial-scale=1.0, user-scalable=no" /><...
2020-02-08 17:21:02 1795 2
原创 Redis 记录用
0 运行cmd >> redis-server.exe redis.windows.confother cmd >> redis-cli.exe -h 127.0.0.1 -p 63791 Redis 命令KEY:(Base) set key:设置键值对 get key:获取键值对 del key...
2020-02-05 22:04:37 99
原创 Django 记录用
project-----appname -migrations -admin.py -apps.py -models.py -tests.py -views -views1.py -views2.py -serializers.py(New File) -urls.py(New File)---...
2020-02-05 22:02:39 131
智慧社区解决方案的探讨-物联网时代的未来家园.pptx
2020-02-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人