基于卷积神经网络的遥感图像分类.zip
基于卷积神经网络的遥感图像分类.zip
人工智能-预训练大语言模型-国内首个全参数训练的法律大模型 HanFei-1.0
HanFei-1.0(韩非)是国内首个全参数训练的法律大模型,参数量7b,主要功能包括:法律问答、多轮对话、撰写文章、检索(敬请期待)等。
人工智能-预训练大语言模型-基于中文法律知识的大语言模型
LaWGPT 是一系列基于中文法律知识的开源大语言模型。
该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
人工智能-预训练大语言模型-LexiLaw - 中文法律大模型
LexiLaw 是一个经过微调的中文法律大模型,它基于 ChatGLM-6B 架构,通过在法律领域的数据集上进行微调,使其在提供法律咨询和支持方面具备更高的性能和专业性。
该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论您是需要针对具体法律问题的咨询,还是对法律条款、案例解析、法规解读等方面的查询,LexiLaw 都能够为您提供有益的建议和指导。
同时,我们将分享在大模型基础上微调的经验和最佳实践,以帮助社区开发更多优秀的中文法律大模型,推动中文法律智能化的发展。
人工智能-预训练大语言模型-ChatLaw:中文法律大模型
ChatLaw2-MoE
Latest Version: Based on the InternLM architecture with a 4x7B Mixture of Experts (MoE) design.
Specialization: Tailored for Chinese legal language processing、
ChatLaw-13B
Demo Version: Built on the Ziya-LLaMA-13B-v1 model.
Performance: Excels in general Chinese tasks but requires a larger model for complex legal QA.
ChatLaw-33B
Demo Version: Utilizes the Anima-33B model.
Enhancements: Improved logical reasoning over the 13B version.
Challenge: Occasionally defaults to English res
人工智能-预训练大语言模型-SecGPT 网络安全大模型
SecGPT的愿景是将人工智能技术引入网络安全领域,以提高网络防御的效率和效果。其使命是推动网络安全智能化,为社会提供更安全的数字生活环境。
1. 漏洞分析:
SecGPT可以与安全研究人员或开发团队进行多轮对话,共同分析和审查应用程序或系统中的潜在漏洞。它可以帮助识别和理解漏洞的性质、潜在影响以及可能的修复方法。
2. 溯源分析:
在网络入侵事件调查中,SecGPT可以与调查员合作,协助分析网络流量、日志和事件记录,以追踪攻击者的活动路径,从而支持安全溯源分析。
3. 流量分析:
SecGPT可以分析网络流量数据,识别异常流量模式,帮助检测潜在的网络攻击或入侵行为,并提供应对这些行为的建议。
人工智能-深度学习-基于Fasttext的中文医疗问答系统
基于知识图谱的中文医疗问答系统,通过爬虫工具从公开的医疗网站获取医疗知识并利用Neo4j图数据库构建知识图谱。问句意图利用Fasttext文本分类算法识别,并简单编写了一个槽位记忆功能辅助记住上下文信息,最后利用Django框架搭建了一个简单的前端对话界面。
人工智能-知识图谱-knowledge graph知识图谱,从零开始构建知识图谱
knowledge graph,从零开始构建知识图谱,涵盖基础知识、构建理论、构建实战,从理论到实现。
人工智能-大语言模型-基于ChatGLM-6B的中文问诊模型
lora
显存 >= 13G (未量化版本)
pip install deep_training cpm_kernels icetk transformers>=4.26.1
torch >= 1.12.0 (icetk依赖cpu版torch, 建议先安装icetk后安装gpu版torch)
lora的finetune代码来自 https://github.com/ssbuild/chatglm_finetuning
对于fp16模型,直接使用Doctor_GLM/chat_lora.ipynb,由于官方更新了chatglm的权重,我们将老版权重放在了 old_pretrain_model 可以下载后解压到old_pretrain_model目录
量化的模型我们打了个包,使用方便,但是效果目前来看很成问题:INT4需要大约6G显存,INT8需要大约8G显存,在Doctor_GLM/chat_lora_quant.ipynb下使用
人工智能-ChatGLM-基于中文医学知识的ChatGLM指令微调
交互式测试
在安装好环境后,即可进行交互式测试:
python infer.py
数据集构建
我们采用了公开和自建的中文医学知识库,主要参考了cMeKG。 医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。知识库示例如下:
{"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]}
我们利用GPT3.5接口围绕医学知识库构建问答数据,设置了多种Prompt形式来充分利用知识。
人工智能-ChatGLM-基于 PEFT 的高效 ChatGLM 微调
要求
Python 3.8+ 和 PyTorch 1.13.1+
Transformers、Datasets、Accelerate、PEFT 和 TRL
Fire、protobuf、cpm-kernels 和 sentencepiece
Jieba、Rouge-Chinese 和 NLTK(在评估中使用)
gradio 和 matplotlib(用于 train_web.py)
Uvicorn、FastAPI 和 SSE-Starlette(用于 api_demo.py)
还有强大的 GPU!
人工智能-大语言模型-基于ChatGLM-6B + LoRA的Fintune方案
准备
显卡: 显存 >= 16G (最好24G或者以上)
环境:
python>=3.8
cuda>=11.6, cupti, cuDNN, TensorRT等深度学习环境
pip3 install -r requirements.txt 其中requirements.txt中的安装包bitsandbytes 建议安装0.41.2.post2这个版本,以前的版本可能会提示报错: bitsandbytes/libbitsandbytes_cpu.so: undefined symbol: cget_col_row_stats
数据预处理
转化alpaca数据集为jsonl
人工智能-循环神经网络-CNN-RNN中文文本分类,基于TensorFlow
环境
Python 2/3 (感谢howie.hu调试Python2环境)
TensorFlow 1.3以上
numpy
scikit-learn
scipy
数据集
使用THUCNews的一个子集进行训练与测试,数据集请自行到THUCTC:一个高效的中文文本分类工具包下载,请遵循数据提供方的开源协议。
本次训练使用了其中的10个分类,每个分类6500条数据。
人工智能-Transformer-Kaggle新赛(baseline)-基于BERT的fine-tuning方案+基于tenso
基于bert的验证集的结果:
class precision recall f1-score
0 0.98 0.98 0.98
1 0.65 0.62 0.63
micro avg 0.96 0.96 0.96
macro avg 0.81 0.80 0.81
weighted avg 0.96 0.96 0.96
基于tensor2tensor的验证集结果:
class precision recall f1-score
0 0.98 0.96 0.96
1 0.23 0.19 0.21
micro avg 0.92 0.92 0.92
macro avg 0.59 0.57 0.58
weighted avg 0.91 0.92 0.91
人工智能-图像分类-基于Swin-transformer训练图像分类并部署web端
由于Swin-transformer现在只支持训练ImageNet,导致用起来不方便,自己改了下代码,可用于训练自己的数据集
具体包含以下几个步骤:
1.加载预训练权重√
2.图片数据集准备√
3.训练√
4.推理测试√
5.新的数据增强调优
6.部署在web端√
服务器端部署:运行flask_demo,
客户端测试:运行client.py
也可以使用postman测试服务器端
人工智能-Transformer-基于transformer的ocr识别,在公章(印章识别, seal recognition)
训练
4.1 环境安装
pip install -r requirements.txt
pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
4.2 印章识别数据集构建
数据集文件夹 seal_dataset,其文件夹下存储图像与标签,存储形式为:
0.jpg # 图像
0.txt # 标签
...
100000.jpg
100000.txt
人工智能-transformer-使用基于Transformer的预训练模型在ACE2005数据集上进行事件抽取任务
使用BERT/OpenAI-GPT2/ALBERT/XLM/Roberta/XLNet/Ctrl/DistilBert/TransfoXL等预训练语言模型在ace2005数据集上进行事件抽取任务。
代码在nlpcl-lab / bert-event-extraction框架上修改,使用transformers包和CRF模型替换了原项目的模型构建部分。
模型整体采用序列标注的方式,未使用任何辅助信息。 先用crf做触发词识别,再根据触发词识别结果再用crf进行论元识别。
预训练模型选用xlm-roberta-large时,trigger-f1=0.72; argument-f1=0.45。argument提升了0.05。
说明:当前是按照一个事件类型使用一个CRF进行识别论元,这会造成一定程度的数据稀疏问题,可以在consts.py中修改,将多种事件类型合并为一个CRF识别
trigger classification
P=0.677 R=0.754 F1=0.713
argument classification
P=0.588 R=0.384 F1=0.464
trigg
人工智能-自然语言处理-基于sentence transformers和chatglm实现的文档搜索工具
命令行形式
demo.py文件里面
if __name__ == "__main__":
global_dir = "政策归档文件" # 你自己的文件夹
kl = KnowLedge(global_dir=global_dir)
res, data = kl.search_result(question_str="大学生创业有什么补贴") # 你想问什么呢
print(res)
print(data)
web端
注意修改code-21行的代码global_dir = "政策归档文件"
streamlit run web_ui.py --server.fileWatcherType none
人工智能-深度学习-Transformer-基于transformer的指针生成网络
运行
先是tokenizer python main.py --original_data_dir E:\0000_python\point-genge\point-generate\zh\data --tokenized_dir ./tokenized_single E:\0000_python\point-genge\point-generate\zh\datal是我存放新闻数据的地方 这步需要挺多时间的。
然后进入new-point-generate-zh python main.py --token_data xxx/tokenized --use_coverage --pointer_gen --do_train --do_decode xxx_toenized 是存放分词后的文件夹
#效果 rouge-1 39% rouge-2 15% rouge-l 37%
人工智能-深度学习-Transformer-基于Transformer的生成式文本摘要
使用说明
大部分超参数可以在 hyper_parameters.py 文件中进行设置。
训练
设置完参数之后,运行 train.py 文件。
简单测试效果
运行 summarize.py 文件,按照提示输入原文,可根据训练结果调整测试时加载的模型轮次。
人工智能-点击率预估-通过对于现有开源分布式机器学习工具的整合(主要是基于参数服务器的logistic regression,x
通过对于现有开源分布式机器学习工具的整合(主要是基于参数服务器的logistic regression,xgboost,FFM,FM ),打造一个工业级的,可以线上使用的点击率预估流水线
人工智能-机器学习-多因子选股-基于机器学习方法构建多因子选股模型:RandomForest, GBDT, Adaboots,
成果
最优的随机森林模型:累计收益60%左右,经择时策略风险控制后,最大回撤率控制在9%左右,夏普率为0.9左右。
单因子测试
确定一个单因子测试文件,定义待测因子列表,执行多次单因子runtest。
保留回测报告,获取字段,保存在CSV文件。
结果可视化。
筛选得到最优因子。
因子做共线性分析,获取最终因子。
官方提示: 单因子问题,可以手动实现一下,或者可以弱化一下,通过间接的方法去实现这个问题,并不一定要实现一个完整的回测框架才能解决单因子分析的问题
选用机器学习模型回测
特征和标签构建。
等权重线性模型。
建立baseline models,尝试使用多种模型。SVR,RNN(LSTM),xgboost, random_forest,adaboost...
交易逻辑确定。
回测结果记录,分析。
人工智能-代码审计-一个基于 ChatGPT 的开源代码审计平台
cd ChatGPTScan-SAST
然后在 deploy/docker-compose.yml 和 web/config.yaml 中配置数据库连接信息,要求两者一致
# deploy/docker-compose.yml
db:
image: mysql:latest
container_name: db
environment:
MYSQL_ROOT_PASSWORD: password
MYSQL_DATABASE: ChatGPTScan
volumes:
- ./init.sql:/docker-entrypoint-initdb.d/init.sql
ports:
- "3306:3306"
# web/config.yaml
db:
ip: db
port: 3306
username: root
password: password
database: ChatGPTScan
然后启动项目
cd deploy
docker-compose up -d
访问 localhost:14433 即
人工智能-智能问答-基于 Java 使用 Spring Boot 3 和 JDK 17,支持的功能有 ChatGPT、OpenA
介绍
描述:ai-beehive 项目的名字取自蜂巢,这源于我们构建房间的方式,即通过图纸塑造出独特的模块化房间,每个房间都是一个具有个性的聊天室,类似于蜂巢中的单独蜂窝。六边形的蜂窝设计启示我们,系统具有无限的扩展能力。在我们的 ai-beehive项目中,我们提供了一种方式,即通过添加新的图纸来扩展和丰富房间类型.
人工智能-ChatGPT-chatgpt for Excel ,基于ExcelDNA开发
本工具基于ExcelDna开发,无需复杂的VSTO和VBA环境,只需双击即可安装使用 兼容Office Excel 和 WPS (强烈建议使用金山公司开发的WPS,插件运行的更加完美!)
人工智能-ChatGPT-基于 ChatGPT API 的划词翻译浏览器插件和跨平台桌面端应用
特征
它提供三种模式:翻译、润色和摘要。
我们的工具允许在 55 种不同的语言中相互翻译、润色和总结。
支持流媒体模式!
它允许用户自定义他们的翻译文本。
一键复制
文字转语音 (TTS)
适用于所有平台(Windows、macOS 和 Linux)的浏览器和桌面
支持截图翻译
支持词汇书,以及支持根据词汇书中的单词生成记忆辅助工具
同时支持 OpenAI 和 Azure OpenAI 服务
人工智能-文本分类-Chinese news classification based on TextCNN 基于TextCNN
使用示范:
python run.py -t train -g 1 -e 32
#进行训练,使用GPU,epoch为32
python run.py -t test -g 1
#进行测试,使用GPU
python run.py -t webtest
#进行测试,使用web GUI界面(默认使用GPU)
人工智能-文本分类-基于Pytorch的文本分类框架,支持TextCNN、Bert、Electra等
Model
非预训练类模型:
FastText
TextCNN
TextRNN
TextRCNN
Transformer
预训练类模型
Bert
Albert
Roberta
Distilbert
Electra
XLNet
人工智能-情感识别-MLPClassify.ipynb仅需要sklearn以及pytorch包即可,打开文件后全部运行即可
环境要求:
python:3.x
tensorflow 1.x
运行
运行训练:python train.py
运行验证:python eval.py
使用知识图谱,自然语言处理,卷积神经网络等技术,基于python语言,设计了一个数控领域故障诊断专家系统.zip
使用知识图谱,自然语言处理,卷积神经网络等技术,基于python语言,设计了一个数控领域故障诊断专家系统.zip
一个基于图神经网络的强化学习网络资源分配模型.zip
一个基于图神经网络的强化学习网络资源分配模型.zip
使用Flask+Keras部署的基于Xception神经网络的细胞图像AI医疗辅助识别系统.zip
使用Flask+Keras部署的基于Xception神经网络的细胞图像AI医疗辅助识别系统.zip
基于图神经网络的切片级漏洞检测及解释方法.zip
基于图神经网络的切片级漏洞检测及解释方法.zip
基于图神经网络的异构图表示学习和推荐算法研究.zip
基于图神经网络的异构图表示学习和推荐算法研究.zip
基于卷积神经网络VGG垃圾图像分类.zip
基于卷积神经网络VGG垃圾图像分类.zip