段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
书生·浦语大模型实战营之XTuner多模态训练与测试
书生·浦语大模型实战营之XTuner多模态训练与测试在本节课中,我们将学习使用XTuner微调多模态LLM的内容,本部分需要的GPU资源为24GB 30% 的 A100。这是学完本节内容后的多模态LLM性能效果展示:Haotian Liu等使用GPT-4V对图像数据生成描述,以此构建出大量 – 的数据对。利用这些数据对,配合文本单模态LLM,训练出一个Image Projector。所使用的文本单模型LLM和训练出来的Image Projector,统称为LLaVA模型LLaVA: Large Lang原创 2024-04-16 19:45:00 · 318 阅读 · 0 评论 -
图解大数据
大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。图解大数据Hadoop 3管理与开发HbaseFlume ZookeeperFlink基于Hadoop3搭建HA环境Hadoop 3管理与开发HbaseFlume ZookeeperFlink基于Hadoop3搭建HA环境一、集群的规划Zoo原创 2020-08-23 20:25:03 · 595 阅读 · 0 评论 -
LinkedIn Spark-TFRecord partitionBy案例实战
LinkedIn Spark-TFRecord partitionBy案例实战目录Spark将完全支持TFRecordLinkedIn Spark-TFRecord案例体验Spark-TFRecord partitionBy案例实战Spark将完全支持TFRecordSpark将完全支持TFRecordLinkedIn Spark-TFRecord案例体验LinkedIn Spark-TFRecord案例体验Spark-TFRecord partitionBy案例实战package spark原创 2020-06-20 16:24:12 · 745 阅读 · 0 评论 -
Spark-TFRecord:Spark将完全支持TFRecord
Spark-TFRecord:Spark将完全支持TFRecord共同作者: Jun Shi, Mingzhou Zhou目录简介现有的项目和先前的努力系统设计如何使用Spark-TFRecord结论原文链接Github链接简介在机器学习社区中,Apache Spark 支持SQL高效操作而被广泛用于数据处理,而TensorFlow是业界最主流的人工智能框架。尽管这两种工具都支持一些数据格式,但是Spark并不完全支持TFRecord—TensorFlow的原生数据格式。虽然以前试图在这两个系统之间原创 2020-06-20 09:51:24 · 1538 阅读 · 0 评论 -
LinkedIn Spark-TFRecord案例体验
lenovo@duanzhihua MINGW64 /d/1sparkWorkSpace$ git clone https://github.com/linkedin/spark-tfrecord.gitCloning into 'spark-tfrecord'...remote: Enumerating objects: 52, done.remote: Counting objects: 100% (52/52), done.remote: Compressing objects: 100%原创 2020-06-18 21:42:53 · 732 阅读 · 0 评论 -
请读者关注智华的微信视频号
微信视频号“段智华”,视频号主要推广内容:清华大学出版社新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版,新书在第一版本的基础上以Spark 2.4.3版本全面更新源码,并以TensorFlow和Pytorch为核心,新增加Spark+AI内幕解密篇的全新内容,大幅度增加人工智能的内容并相应增加实战案例。同时出版新书《企业级AI技术内幕》:涵盖自研盘古人工智能框架开发专题...原创 2020-04-29 10:08:33 · 436 阅读 · 0 评论 -
CS294(285) Actor Critic之Critic
CS294(285) Actor Critic系列CS294(285) Actor Critic之agents(https://duanzhihua.blog.csdn.net/article/details/103106090)CS294(285) Actor Critic之Critic构建基类BaseCriticclass BaseCritic(object): ...原创 2019-11-17 20:27:37 · 647 阅读 · 0 评论 -
CS294(285) Actor Critic之agents
CS294(285) Actor Critic之agents在CS294(285) Actor Critic系列文章中,我们跟着CS294 285的作业内容,一步一步的实现自己的演员-评论家算法。Actor Critic的分层架构图:演员-评论家算法的代理智能体:构建基类BaseAgentimport numpy as npimport tensorflow as tf...原创 2019-11-17 16:30:54 · 652 阅读 · 0 评论 -
Actor Critic算法
Actor Critic(直译为演员评判家算法,易理解):结合两个网络:演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic), 演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。钟摆游戏的动作是一...原创 2019-11-16 12:00:50 · 1792 阅读 · 0 评论 -
Spark Structured Streaming 实现自定义数据源
Spark Structured Streaming 实现自定义数据源:Spark Streaming 查询使用微批处理引擎进行处理,微批处理引擎将 data streams 作为一系列小批处理作业进行处理,从Spark 2.3以来,Spark引入了一种新的低延迟处理模式,称为连续处理,可以实现毫秒级的端到端延迟。Spark Structured Streaming Demo:...原创 2019-11-16 09:30:19 · 1407 阅读 · 0 评论 -
UC Berkeley AI Project MindsDB Time Series 时间序列算法体验
UC Berkeley AI Project MindsDB Time Series 时间序列算法体验 MindsDB是美国加州大学伯克利分校的开源研究项目!MindsDB的目标是让开发人员在他们的项目中使用人工神经网络变得非常简单,为所有能够接触到数据的人构建mindsdb,输入几行代码就能实现深度学习神经网络。MindsDB已发布V1.2.8版本。MindsDB的目标是让开发...原创 2019-11-13 17:27:28 · 964 阅读 · 0 评论 -
Policy Gradient (策略梯度算法)
Policy Gradient (策略梯度算法)前置基础知识:Reinforcement Learning 基本概念 Q Leaning算法原理 深度学习神经网络知识 Tensorflow、Pytorch、Python 概率论与数量统计、马尔可夫链、期望、方差 微积分、梯度求导策略梯度算法:直接根据当前的状态来选择动作。策略梯度的算法是回合更新,在回合中的中每一步记录状态、动作、奖...原创 2019-11-10 20:52:37 · 3036 阅读 · 0 评论 -
Double Deep Q Network 算法
Deep Q Network 算法:直接从下一个状态的Q目标值,选择动作概率的最大值。(Y值通过Q目标值的一张网络计算)Double Deep Q Network 算法:计算下一个状态的Q评估值的最大值,然后从下一个状态的Q目标值,选择动作q_next。(Y值通过Q评估值、Q目标值的双网计算)符号: :表示Q目标值神经网络(target_net)的网络参数: 表示...原创 2019-11-09 20:06:27 · 1990 阅读 · 0 评论 -
Deep Q Network 算法
Deep Q Network 算法前置基础知识:Reinforcement Learning 基本概念 Q Leaning算法原理 深度学习神经网络知识 Tensorflow、Pytorch、Python 概率论与数量统计、马尔可夫链、期望、方差Q Leaning算法概述: Q Leaning算法 :在监督学习中,标签值y是一个固定的值,例如,输入一张图片,预测这张图...原创 2019-11-08 21:15:18 · 909 阅读 · 0 评论 -
Q_Learning、Sarsa、Sarsa_lambda
Q_Learning算法Sarsa算法Sarsa_lambda算法# -*- coding: utf-8 -*-"""This part of code is the Q learning brain, which is a brain of the agent.All decisions are made in here.View more on ...原创 2019-11-05 21:30:14 · 604 阅读 · 0 评论 -
Q_Learning_maze
maze_env.py# -*- coding: utf-8 -*-"""Reinforcement learning maze example.Red rectangle: explorer.Black rectangles: hells [reward = -1].Yellow bin circle: paradise...原创 2019-11-04 21:48:51 · 824 阅读 · 0 评论 -
Q-Learning算法(command_line_reinforcement_learning)
Q-Learning算法import numpy as npimport pandas as pdimport timenp.random.seed(2) # reproducibleN_STATES = 6 # the length of the 1 dimensional worldACTIONS = ['left', 'right'] # availa...原创 2019-11-03 17:32:02 · 670 阅读 · 0 评论 -
Getting Started with Gym
Getting Started with GymCartPole-v0场景:电杆由一个未驱动的接头连接到大车上,大车沿着轨道移动。系统通过对推车施加+1或-1的力来控制。电杆开始是直立的,目的是防止它倒下。当杆保持直立时,每一步奖励+1。当电杆与垂直方向的夹角超过15度,或者大车从中心移动超过2.4个单位时,这一集就结束。环境:下面是一个简单的运行示例。 将运行cartpole-v0环境的...原创 2019-10-21 21:35:07 · 1187 阅读 · 0 评论 -
mjpro安装部署
安装mjpro150 win64:1.下载地址:https://www.roboti.us/index.html。放入windows本地目录E:\cs285_2019\mujoco2.获取激活码。 打开https://www.roboti.us/license.html,单击 Win64 ,下载插件查看电脑Computer id,填写好信息后提交,官方发送邮件,附件有mjkey.tx...原创 2019-10-19 13:34:34 · 2100 阅读 · 0 评论 -
CS285 2019 Tensorflow Tutorial( Tips and tricks)
CS285 2019 Tensorflow Tutorial( Tips and tricks)# -*- coding: utf-8 -*-import osimport warningsos.environ['TF_CPP_MIN_LOG_LEVEL']='3'warnings.filterwarnings('ignore')import tensorflow as tf...原创 2019-10-19 10:59:23 · 791 阅读 · 0 评论 -
CS285 2019 Tensorflow Tutorial(train a neural network)
训练一个简单回归问题的神经网络。创建输入、变量、神经网络操作、均方误差损失、梯度下降优化器,并使用小批量数据运行优化器。# -*- coding: utf-8 -*-import osimport warningsos.environ['TF_CPP_MIN_LOG_LEVEL']='3'warnings.filterwarnings('ignore')import tens...原创 2019-10-19 09:38:08 · 760 阅读 · 0 评论 -
CS285 2019 Tensorflow Tutorial( input data、 computations、 create variables)
简要概述tensorflow的核心概念和功能。什么是tensorflow如何输入数据如何进行计算如何创建变量# -*- coding: utf-8 -*-import osimport warningsos.environ['TF_CPP_MIN_LOG_LEVEL']='3'warnings.filterwarnings('ignore')import ten...原创 2019-10-19 07:20:02 · 565 阅读 · 0 评论 -
数值积分与数值微分
原创 2019-09-15 16:28:13 · 1938 阅读 · 0 评论 -
函数拟合之多项式 指数 非线性拟合法
原创 2019-09-15 16:27:00 · 2182 阅读 · 0 评论 -
函数拟合之直线拟合法(最小二乘法)
原创 2019-09-15 16:25:55 · 3514 阅读 · 0 评论 -
函数逼近之插值多项式法与函数拟合法比较
原创 2019-09-15 16:24:46 · 1301 阅读 · 0 评论 -
插值多项式之Lagrange插值法、牛顿均差插值法、牛顿等距插值法
原创 2019-09-15 16:23:15 · 1357 阅读 · 1 评论 -
牛顿插值多项式(均差法)
原创 2019-09-15 16:20:40 · 5003 阅读 · 0 评论 -
插值多项式(3)
原创 2019-08-26 13:36:53 · 423 阅读 · 0 评论 -
插值多项式(2)
原创 2019-08-26 13:36:20 · 589 阅读 · 0 评论 -
插值多项式(1)
原创 2019-08-26 13:33:40 · 510 阅读 · 0 评论 -
插值法之Lanrange插值多项式
插值法之Lanrange插值多项式原创 2019-07-21 16:52:15 · 598 阅读 · 0 评论 -
CS 188 Project4(RL) Q2: Exact Inference Observation
在这个问题中,您将在inference.py的ExactInference类中实现observeupdate方法,以正确地更新从pacman传感器观察到的幽灵代理的信念分布。你正在实施在线信念更新来观察新的证据。对于这个问题,观察方法应该在接收到传感器读数后更新地图上每个位置的信念。您应该在变量self.allPositions 上迭代您的更新,其中包括所有合法位置和特殊jail位置。信念表示幽...原创 2019-04-01 19:14:59 · 1608 阅读 · 0 评论 -
CS 188 Project4(RL) Q1:Observation Probability
在这个问题中,您将在inference.py中的InferenceModule基类中实现getObservationProb方法。该方法通过观测(即对幽灵的距离的噪声读数)、Pacman的位置、幽灵的位置和幽灵jail的位置,返回给定Pacman的位置和幽灵位置的噪声距离读数的概率。换句话说,我们要返回P(noisyDistance | pacmanPosition, ghostPos...原创 2019-03-30 12:52:54 · 1245 阅读 · 0 评论 -
CS 188 Project4(RL) Q0:DiscreteDistribution Class
在整个项目中,我们将使用在inference.py中定义的DiscreteDistribution类来建模信念分布和权重分布。这个类是内置python dictionary类的扩展,其中键是分布中不同的离散元素,相应的值与该元素的信念或权重成比例。 首先,实现normalize方法,它将分布中的值归一化为1,但保持值的比例不变。使用total方法查找分布中的值之和。对于空分布或...原创 2019-03-29 19:41:05 · 1332 阅读 · 0 评论 -
CS 188 Project4(RL) Introduction:Ghostbusters
Pacman一生都在逃避幽灵,但事情并非总是如此。传说很多年前,Pacman的曾祖父爷爷就学会了捕猎幽灵。然而,他被自己的能力蒙蔽了双眼,只能通过幽灵的砰砰声和叮当声来追踪他们。在这个项目中,您将设计Pacman代理程序,使用传感器来定位和吃掉看不见的幽灵。你将从定位单个静止的幽灵前进到以无情的效率猎杀多个移动的幽灵。 此项目的代码包含以下文件,可下载zip文件。http...原创 2019-03-28 15:34:34 · 2486 阅读 · 0 评论 -
CS 188 Project3(RL) Q10:Approximate Q-Learning
实现一个近似的Q-learning学习代理,它学习状态特征的权重,其中许多状态可能共享相同的特征。在qlearningAgents.py中的ApproximateQAgent类中编写实现,它是PacmanQAgent的子类。注:近似Q-learning学习假设在状态和动作对上存在一个特征函数f(s,a),它产生一个向量f1(s,a) .. fi(s,a) .. fn(s,a)特征值。我们在fe...原创 2019-03-28 13:42:27 · 2288 阅读 · 0 评论 -
CS 188 Project3(RL) Q9: Q-Learning and Pacman
是时候玩Pacman了!Pacman将分两个阶段玩游戏。在训练的第一阶段,Pacman将开始学习位置和动作的值。因为学习精确的Q-values值需要很长的时间,即使是很小的网格,Pacman的训练游戏默认以安静模式运行,没有GUI(或控制台)显示。一旦Pacman的训练完成,将进入测试模式。测试时,Pacman的self.epsilon和self.alpha将被设置为0.0,有效地停止Q-l...原创 2019-03-27 14:54:21 · 2395 阅读 · 0 评论 -
CS 188 Project3(RL) Q8: Bridge Crossing Revisited
首先,在无噪声的BridgeGrid上用默认学习率训练50次完全随机的Q-learner学习,观察是否找到最佳策略。python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1现在采用epsilon设置为0做同样的实验。是否存在一个epsilon和一个学习率,在50次迭代之后,很可能(大于99%)会学习到最佳策略?analysis.py...原创 2019-03-27 13:30:05 · 1558 阅读 · 0 评论 -
CS 188 Project3(RL) Q7:Epsilon Greedy
通过在getAction中实现epsilon-greedy贪心动作选择完成Q-learning代理,这意味着它选择的是时间epsilon的随机动作,否则将遵循当前的最佳Q-values值。请注意,选择随机动作可能会导致选择最佳动作——也就是说,您不应该选择随机次优动作,而是选择任何随机合法动作。 您可以通过调用random.choice函数从列表中均匀地随机选择一个元素。您可...原创 2019-03-27 10:38:33 · 1411 阅读 · 0 评论