2018年03月_博士僧小星

人工智能-预训练大语言模型-国内首个全参数训练的法律大模型 HanFei-1.0

HanFei-1.0(韩非)是国内首个全参数训练的法律大模型，参数量7b，主要功能包括：法律问答、多轮对话、撰写文章、检索（敬请期待）等。

2024-09-12

人工智能-预训练大语言模型-基于中文法律知识的大语言模型

LaWGPT 是一系列基于中文法律知识的开源大语言模型。该系列模型在通用中文基座模型（如 Chinese-LLaMA、ChatGLM 等）的基础上扩充法律领域专有词表、大规模中文法律语料预训练，增强了大模型在法律领域的基础语义理解能力。在此基础上，构造法律领域对话问答数据集、中国司法考试数据集进行指令精调，提升了模型对法律内容的理解和执行能力。

2024-09-12

人工智能-预训练大语言模型-LexiLaw - 中文法律大模型

LexiLaw 是一个经过微调的中文法律大模型，它基于 ChatGLM-6B 架构，通过在法律领域的数据集上进行微调，使其在提供法律咨询和支持方面具备更高的性能和专业性。该模型旨在为法律从业者、学生和普通用户提供准确、可靠的法律咨询服务。无论您是需要针对具体法律问题的咨询，还是对法律条款、案例解析、法规解读等方面的查询，LexiLaw 都能够为您提供有益的建议和指导。同时，我们将分享在大模型基础上微调的经验和最佳实践，以帮助社区开发更多优秀的中文法律大模型，推动中文法律智能化的发展。

2024-09-12

人工智能-预训练大语言模型-ChatLaw：中文法律大模型

ChatLaw2-MoE Latest Version: Based on the InternLM architecture with a 4x7B Mixture of Experts (MoE) design. Specialization: Tailored for Chinese legal language processing、 ChatLaw-13B Demo Version: Built on the Ziya-LLaMA-13B-v1 model. Performance: Excels in general Chinese tasks but requires a larger model for complex legal QA. ChatLaw-33B Demo Version: Utilizes the Anima-33B model. Enhancements: Improved logical reasoning over the 13B version. Challenge: Occasionally defaults to English res

2024-09-12

人工智能-预训练大语言模型-SecGPT 网络安全大模型

SecGPT的愿景是将人工智能技术引入网络安全领域，以提高网络防御的效率和效果。其使命是推动网络安全智能化，为社会提供更安全的数字生活环境。 1. 漏洞分析： SecGPT可以与安全研究人员或开发团队进行多轮对话，共同分析和审查应用程序或系统中的潜在漏洞。它可以帮助识别和理解漏洞的性质、潜在影响以及可能的修复方法。 2. 溯源分析：在网络入侵事件调查中，SecGPT可以与调查员合作，协助分析网络流量、日志和事件记录，以追踪攻击者的活动路径，从而支持安全溯源分析。 3. 流量分析： SecGPT可以分析网络流量数据，识别异常流量模式，帮助检测潜在的网络攻击或入侵行为，并提供应对这些行为的建议。

2024-09-12

人工智能-深度学习-基于Fasttext的中文医疗问答系统

基于知识图谱的中文医疗问答系统，通过爬虫工具从公开的医疗网站获取医疗知识并利用Neo4j图数据库构建知识图谱。问句意图利用Fasttext文本分类算法识别，并简单编写了一个槽位记忆功能辅助记住上下文信息，最后利用Django框架搭建了一个简单的前端对话界面。

2024-09-03

人工智能-问答系统-基于知识图谱的问答

基于知识图谱的问答

2024-08-29

人工智能-知识图谱-knowledge graph知识图谱,从零开始构建知识图谱

knowledge graph,从零开始构建知识图谱，涵盖基础知识、构建理论、构建实战，从理论到实现。

2024-08-29

人工智能-大语言模型-基于ChatGLM-6B的中文问诊模型

lora 显存 >= 13G （未量化版本） pip install deep_training cpm_kernels icetk transformers>=4.26.1 torch >= 1.12.0 (icetk依赖cpu版torch, 建议先安装icetk后安装gpu版torch) lora的finetune代码来自 https://github.com/ssbuild/chatglm_finetuning 对于fp16模型，直接使用Doctor_GLM/chat_lora.ipynb，由于官方更新了chatglm的权重，我们将老版权重放在了 old_pretrain_model 可以下载后解压到old_pretrain_model目录量化的模型我们打了个包，使用方便，但是效果目前来看很成问题：INT4需要大约6G显存，INT8需要大约8G显存，在Doctor_GLM/chat_lora_quant.ipynb下使用

2024-08-05

人工智能-ChatGLM-基于中文医学知识的ChatGLM指令微调

交互式测试在安装好环境后，即可进行交互式测试： python infer.py 数据集构建我们采用了公开和自建的中文医学知识库，主要参考了cMeKG。医学知识库围绕疾病、药物、检查指标等构建，字段包括并发症，高危因素，组织学检查，临床症状，药物治疗，辅助治疗等。知识库示例如下: {"中心词": "偏头痛", "相关疾病": ["妊娠合并偏头痛", "恶寒发热"], "相关症状": ["皮肤变硬", "头部及眼后部疼痛并能听到连续不断的隆隆声", "晨起头痛加重"], "所属科室": ["中西医结合科", "内科"], "发病部位": ["头部"]} 我们利用GPT3.5接口围绕医学知识库构建问答数据，设置了多种Prompt形式来充分利用知识。

2024-08-05

人工智能-ChatGLM-基于 PEFT 的高效 ChatGLM 微调

要求 Python 3.8+ 和 PyTorch 1.13.1+ Transformers、Datasets、Accelerate、PEFT 和 TRL Fire、protobuf、cpm-kernels 和 sentencepiece Jieba、Rouge-Chinese 和 NLTK（在评估中使用） gradio 和 matplotlib（用于 train_web.py） Uvicorn、FastAPI 和 SSE-Starlette（用于 api_demo.py）还有强大的 GPU！

2024-08-05

人工智能-大语言模型-基于ChatGLM-6B + LoRA的Fintune方案

准备显卡: 显存 >= 16G (最好24G或者以上) 环境： python>=3.8 cuda>=11.6, cupti, cuDNN, TensorRT等深度学习环境 pip3 install -r requirements.txt 其中requirements.txt中的安装包bitsandbytes 建议安装0.41.2.post2这个版本，以前的版本可能会提示报错： bitsandbytes/libbitsandbytes_cpu.so: undefined symbol: cget_col_row_stats 数据预处理转化alpaca数据集为jsonl

2024-08-05

人工智能-循环神经网络-CNN-RNN中文文本分类，基于TensorFlow

环境 Python 2/3 (感谢howie.hu调试Python2环境) TensorFlow 1.3以上 numpy scikit-learn scipy 数据集使用THUCNews的一个子集进行训练与测试，数据集请自行到THUCTC：一个高效的中文文本分类工具包下载，请遵循数据提供方的开源协议。本次训练使用了其中的10个分类，每个分类6500条数据。

2024-08-05

人工智能-Transformer-Kaggle新赛(baseline)-基于BERT的fine-tuning方案+基于tenso

基于bert的验证集的结果： class precision recall f1-score 0 0.98 0.98 0.98 1 0.65 0.62 0.63 micro avg 0.96 0.96 0.96 macro avg 0.81 0.80 0.81 weighted avg 0.96 0.96 0.96 基于tensor2tensor的验证集结果： class precision recall f1-score 0 0.98 0.96 0.96 1 0.23 0.19 0.21 micro avg 0.92 0.92 0.92 macro avg 0.59 0.57 0.58 weighted avg 0.91 0.92 0.91

2024-07-27

人工智能-图像分类-基于Swin-transformer训练图像分类并部署web端

由于Swin-transformer现在只支持训练ImageNet，导致用起来不方便，自己改了下代码，可用于训练自己的数据集具体包含以下几个步骤： 1.加载预训练权重√ 2.图片数据集准备√ 3.训练√ 4.推理测试√ 5.新的数据增强调优 6.部署在web端√ 服务器端部署：运行flask_demo，客户端测试：运行client.py 也可以使用postman测试服务器端

2024-07-27

人工智能-Transformer-基于transformer的ocr识别，在公章(印章识别, seal recognition）

训练 4.1 环境安装 pip install -r requirements.txt pip install torch==1.13.1+cu116 torchvision==0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116 4.2 印章识别数据集构建数据集文件夹 seal_dataset,其文件夹下存储图像与标签，存储形式为： 0.jpg # 图像 0.txt # 标签 ... 100000.jpg 100000.txt

2024-07-27

人工智能-transformer-使用基于Transformer的预训练模型在ACE2005数据集上进行事件抽取任务

使用BERT/OpenAI-GPT2/ALBERT/XLM/Roberta/XLNet/Ctrl/DistilBert/TransfoXL等预训练语言模型在ace2005数据集上进行事件抽取任务。代码在nlpcl-lab / bert-event-extraction框架上修改，使用transformers包和CRF模型替换了原项目的模型构建部分。模型整体采用序列标注的方式，未使用任何辅助信息。先用crf做触发词识别，再根据触发词识别结果再用crf进行论元识别。预训练模型选用xlm-roberta-large时，trigger-f1=0.72; argument-f1=0.45。argument提升了0.05。说明：当前是按照一个事件类型使用一个CRF进行识别论元，这会造成一定程度的数据稀疏问题，可以在consts.py中修改，将多种事件类型合并为一个CRF识别 trigger classification P=0.677 R=0.754 F1=0.713 argument classification P=0.588 R=0.384 F1=0.464 trigg

2024-07-27

人工智能-自然语言处理-基于sentence transformers和chatglm实现的文档搜索工具

命令行形式 demo.py文件里面 if __name__ == "__main__": global_dir = "政策归档文件" # 你自己的文件夹 kl = KnowLedge(global_dir=global_dir) res, data = kl.search_result(question_str="大学生创业有什么补贴") # 你想问什么呢 print(res) print(data) web端注意修改code-21行的代码global_dir = "政策归档文件" streamlit run web_ui.py --server.fileWatcherType none

2024-07-27

人工智能-深度学习-Transformer-基于transformer的指针生成网络

运行先是tokenizer python main.py --original_data_dir E:\0000_python\point-genge\point-generate\zh\data --tokenized_dir ./tokenized_single E:\0000_python\point-genge\point-generate\zh\datal是我存放新闻数据的地方这步需要挺多时间的。然后进入new-point-generate-zh python main.py --token_data xxx/tokenized --use_coverage --pointer_gen --do_train --do_decode xxx_toenized 是存放分词后的文件夹 #效果 rouge-1 39% rouge-2 15% rouge-l 37%

2024-07-21