- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 window下flask +celery 定时任务不执行
app.run(host="0.0.0.0", port=5000, debug=True) # 以debug模式运行flask。# 使用debug模式时,celery异步任务不能执行,但定时任务可以执行。
2024-06-17 15:50:25
104
2
原创 下载指定版本的milvus,并快速安装
然后打开这个文件vi standalone_embed.sh。这里我指定的是2.3.1版本。修改版本号的那行代码。
2024-03-29 14:29:13
243
原创 github报错10054
【产生原因】一般是因为服务器的SSL证书没有经过第三方机构的签署,所以才报错。【解决方式】解除ssl验证后,再次git即可。
2024-03-11 15:28:04
374
原创 基于langchainsql和chatglm实现自然语言查询mysql数据库
import osimport jsonfrom flask import Flaskfrom flask import requestfrom transformers import AutoTokenizer, AutoModel# system paramsos.environ["CUDA_VISIBLE_DEVICES"] = "0"tokenizer = AutoTokenizer.from_pretrained(r".\chatglm2-6b-int4", trust_remote_co
2023-12-28 17:09:29
3047
原创 int8量化基本概念以及相关实现详解
随着大模型的出现,大家越来越意识到大模型的优势,相比传统的模型,缺点和不可用也显而易见,其中比较明显的就是算力的需求,这是很多公司可望而不可及的。为减少显存的占用,在训练阶段,主权重采用fp32,而推理时,fp16通常能提供与fp32相似的精度,这意味着,在使用大模型时,通过将模型转化为fp16,采用一半的显存就可以获取相同的效果,即使这样,显存的占用仍是巨大的,接着人们发现可以采用我们今天介绍的主角量化技术,来进一步减少显存的消耗。
2023-12-22 15:07:47
399
原创 fp32、fp16、bf16介绍与使用
fp32、fp16、bf16分别称为单精度浮点数、半精度浮点数、半精度浮点数,其中fp16是intel提出的,bf16是nvidia提出的,fp16和bf16所占存储空间是fp32的一半。
2023-12-22 11:32:40
3303
原创 从前馈神经网络到自然语言表示方法到RNN到LSTM到attention-到transformer--seq2seq总结
本人半路出家,得空从头到尾看了这本书。书中详细介绍从(1)前馈神经网络(2)单词的分布式表示-(3)RNN(4)lstm(5)attention(6)transformer(7)seq2seq,整体总结我将详细的分为7个模块一一介绍。(1)前馈神经网络是我们比较熟悉的神经网络,具体的计算方法相信大家也比较熟悉,即wx+b。具体参见后续添加具体博客网页。(2)自然语言无法直接输入到计算机,需要转化为数字计算机才能进行处理。整体有两种思路去表示,一种即通过one-hot编码,不常用,计算量比较大,且单词
2022-03-03 18:13:38
512
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人