技术人员的素养

1.不教条:软件的第一原则就是控制软件的复杂度
2.批判性思维:后来我学习了一些批判性思维的知识,情况才有所改变,可以抓住对方的一些罗技漏洞和推理谬误进行反驳。
技术人员虽然有很强的逻辑推理能力,但不见得都有很强的逻辑思维。我也是如此。
3.成长型思维:我们获得的成功并不是能力和天赋决定的,更多受到我们最求目标的过程中展现的思维模式的影响。
在了解成长型思维之后,我开始逐渐转变思维模式,会用更加理性的态度看待一时的成败得失,内心坚定地相信成长和学习的
的力量。技术人员的工作面临着很多的挑战,我们需要具备成长型思维才能应对工作和生活中的压力,这样在遇到问题时,
我们才不会轻言放弃,而是会积极主动地学习,去寻找解决方案。即使最终还是失败了,我们也不会一蹶不振,而是把失败当做学习的机会。
4.结构化思维:在日常工作中,我们时常会碰到汇报,讲述项目等,在讲一件事情的时候进场非常混乱,
前后没有逻辑关联性,甚至无法把一件事情说清楚。思维混乱是缺少结构化思维的典型表现。实际上,我们不仅在
表达上要结构化,在分析问题时更要有结构化思维,这样才能分析得更全面、深刻。
结构化思维:“逻辑”+“套路”。逻辑是一种能力,而套路是方法论、经验。逻辑属于道、而方法论属于术。
1.逻辑:结构之间是有逻辑关系的时间顺序:比如说话用:第一。。第二。。第三;首先、其次、最后。空间顺序:“前端、后端、数据”。
2.套路:是我们解决问题的方法论、路径和经验。比如5W2H(why,who,when,where,what,how,how much)
WHAT——是什么,目的是什么,做什么工作。
WHY——为什么要做,可不可以不做,有没有替代方案。
WHO——谁,由谁来做。
WHEN——何时,什么时间做,什么时机最适宜。
WHERE——何处,在哪里做。
HOW ——怎么做,如何提高效率,如何实施,方法是什么。
HOW MUCH——多少,做到什么程度,数量如何,质量水平如何,费用产出如何。
对于一个公司来说,最重要的业务、技术和人
5.工具化思维:适当的懒比低效的勤奋更具有智慧,是更难得的美德。
“实在懒”,拖延不喜欢的任务。
“开明懒”,迅速做完不喜欢的任务,以摆脱之。
“智慧懒”,编写某个工具来完成不喜欢的任务,以便再也不用做这样的事情了。从而一劳永逸。
每当我们重复同样的工作3次以上,就应该停下来问问自己:我是不是可以通过自动化脚本、配置化、或者小工具来帮助自己提效?
6.好奇心:好奇心是创新的驱动力,做技术这一行,应该没有比持续学习更重要了。因为有太多新的东西需要我们学习和了解,很多人工作了很多年,
知道的东西还很少,对很多东西的理解还不透彻,就是因为缺少一点好奇心,没有深入钻研。
7. 记笔记:好记忆不如烂笔头。
1)让知识内化:记笔记的的过程是一个归纳整理、在理解、在及吸收的过程,可以加深我们对知识的理解。
2)形成知识体系:零散的知识很容易被遗忘,而形成知识体系以后,知识之间就能有更强的连接。
3)方便回顾:笔记就像我们的硬盘,当缓存失效之后,我们依然可以通过硬盘调回,保证知识不丢失。
8.有目标:实际上,我之前的很多焦虑和迷茫都是目标不清晰导致的。例如,我进入技术管理岗位之后,不知道后面的方向是什么,是继续在技术专研?
还是研究管理之术喃?..最重要的“你要做一个什么样的人”,而一个可有可无的次要问题。而是首先要回答的头等大问题。
9 选择的自由
10 .平和的心态:“动机至善,了无私心;用无为的心,做有为的事”。首先,我们做事情的出发点必须是善的,其次,“有为的事”是指要认真做事,认真生活;“无为的心”代表一种平和的心态一种活在当下的智慧。也就是做事情要积极,但是心态要放平。

DQN(Deep Q-Network)是一种使用深度神经网络实现的强化学习算法,用于解决离散动作空间的问题。在PyTorch中实现DQN可以分为以下几个步骤: 1. 定义神经网络:使用PyTorch定义一个包含多个全连接层的神经网络,输入为状态空间的维度,输出为动作空间的维度。 ```python import torch.nn as nn import torch.nn.functional as F class QNet(nn.Module): def __init__(self, state_dim, action_dim): super(QNet, self).__init__() self.fc1 = nn.Linear(state_dim, 64) self.fc2 = nn.Linear(64, 64) self.fc3 = nn.Linear(64, action_dim) def forward(self, x): x = F.relu(self.fc1(x)) x = F.relu(self.fc2(x)) x = self.fc3(x) return x ``` 2. 定义经验回放缓存:包含多条经验,每条经验包含一个状态、一个动作、一个奖励和下一个状态。 ```python import random class ReplayBuffer(object): def __init__(self, max_size): self.buffer = [] self.max_size = max_size def push(self, state, action, reward, next_state): if len(self.buffer) < self.max_size: self.buffer.append((state, action, reward, next_state)) else: self.buffer.pop(0) self.buffer.append((state, action, reward, next_state)) def sample(self, batch_size): state, action, reward, next_state = zip(*random.sample(self.buffer, batch_size)) return torch.stack(state), torch.tensor(action), torch.tensor(reward), torch.stack(next_state) ``` 3. 定义DQN算法:使用PyTorch定义DQN算法,包含训练和预测两个方法。 ```python class DQN(object): def __init__(self, state_dim, action_dim, gamma, epsilon, lr): self.qnet = QNet(state_dim, action_dim) self.target_qnet = QNet(state_dim, action_dim) self.gamma = gamma self.epsilon = epsilon self.lr = lr self.optimizer = torch.optim.Adam(self.qnet.parameters(), lr=self.lr) self.buffer = ReplayBuffer(100000) self.loss_fn = nn.MSELoss() def act(self, state): if random.random() < self.epsilon: return random.randint(0, action_dim - 1) else: with torch.no_grad(): q_values = self.qnet(state) return q_values.argmax().item() def train(self, batch_size): state, action, reward, next_state = self.buffer.sample(batch_size) q_values = self.qnet(state).gather(1, action.unsqueeze(1)).squeeze(1) target_q_values = self.target_qnet(next_state).max(1)[0].detach() expected_q_values = reward + self.gamma * target_q_values loss = self.loss_fn(q_values, expected_q_values) self.optimizer.zero_grad() loss.backward() self.optimizer.step() def update_target_qnet(self): self.target_qnet.load_state_dict(self.qnet.state_dict()) ``` 4. 训练模型:使用DQN算法进行训练,并更新目标Q网络。 ```python dqn = DQN(state_dim, action_dim, gamma=0.99, epsilon=1.0, lr=0.001) for episode in range(num_episodes): state = env.reset() total_reward = 0 for step in range(max_steps): action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) dqn.buffer.push(torch.tensor(state, dtype=torch.float32), action, reward, torch.tensor(next_state, dtype=torch.float32)) state = next_state total_reward += reward if len(dqn.buffer.buffer) > batch_size: dqn.train(batch_size) if step % target_update == 0: dqn.update_target_qnet() if done: break dqn.epsilon = max(0.01, dqn.epsilon * 0.995) ``` 5. 测试模型:使用训练好的模型进行测试。 ```python total_reward = 0 state = env.reset() while True: action = dqn.act(torch.tensor(state, dtype=torch.float32)) next_state, reward, done, _ = env.step(action) state = next_state total_reward += reward if done: break print("Total reward: {}".format(total_reward)) ``` 以上就是在PyTorch中实现DQN强化学习的基本步骤。需要注意的是,DQN算法中还有很多细节和超参数需要调整,具体实现过程需要根据具体问题进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值