自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

To be a better man

技术小白,很白的那种。。。

  • 博客(55)
  • 收藏
  • 关注

原创 进阶岛-L2G5000

茴香豆:企业级知识库问答工具茴香豆本地标准版搭建环境搭建安装茴香豆知识库创建测试知识助手Gradio UI 界面测试

2024-12-24 21:52:02 225

原创 进阶岛-L2G6000

我们可以看到大模型回复了“What are the top 10 e-commerce websites?至此,我们就完成了MindSearch在Hugging Face上面的部署。

2024-12-11 09:57:13 368

原创 进阶岛-L2G4000

配置文件 internvl_v2_internlm2_2b_lora_finetune_food.py的详细内容如下。

2024-12-11 09:16:20 320

原创 进阶岛-L2G3000

在(lmdeploy)虚拟环境下,执行 lmdeploy chat /root/models/internlm2_5-7b-chat,就可以在命令行界面和InternLM2.5尽情对话了,注意输入内容完成后需要按两次回车才能够执行。新打开一个终端,输入nvidia-smi 或者 studio-smi 命令可以查看当前显存的占用情况。

2024-12-09 21:03:15 730 1

原创 进阶岛-L2G2000

通用智能体范式:ReAct(Reasoning and Acting): 推理(Reason)和行动(Action)模型特化智能体范式:InternLM2。

2024-12-04 16:54:38 836

原创 基础岛-L1G5000

首先修改/root/finetune/config/internlm2_5_chat_7b_qlora_alpaca_e3_copy.py配置。

2024-11-30 09:17:52 718

原创 基础岛-L1G6000

在 /opencompass/configs/models/openai/目录下中创建puyu_api.py。

2024-11-30 01:18:05 331

原创 基础岛-L1G4000

我们提问:xtuner是什么?机器人就会从我们给定的资料中分析得出答案啦~

2024-11-29 10:53:59 324

原创 基础岛-L1G3000

InternLM 开源模型官方的对话类产品开源的 AI 搜索引擎InternVL 开源的视觉语言模型官方的对话产品。

2024-11-28 13:30:41 344

原创 基础岛-L1G2000

玩转书生「多模态对话」与「AI搜索」产品MindSearch开源的 AI 搜索引擎书生·浦语 InternLM 开源模型官方的对话类产品书生·万象 InternVL 开源的视觉语言模型官方的对话产品

2024-11-27 15:32:48 265

原创 基础岛-L1G1000

数据(书生·万卷)->预训练(InternEvo)->微调(XTuner)->部署(LMDeploy)->评测(OpenCompass)->应用(MindSearch/Lagent/MinerU/HuixiangDou)智能体Lagent支持多种类型的智能体能力:ReAct/ReWoo/AutoGPT。数据标注:Lablel LLM、Lable U。目前书生·浦语是InternLM2.5.社区生态:InternLM系列模型。支持100万Token上下文。数据提取:Miner U。

2024-11-27 15:09:11 205

原创 入门岛-L0G4000

本次实验使用魔塔社区和训练营提供的intern-studio进行学习。下载魔塔社区上的模型文件。

2024-11-27 11:54:57 201

原创 入门岛-L0G3000

任务1: 破冰活动:自我介绍任务2: 实践项目:构建个人项目

2024-11-27 09:56:58 112

原创 入门岛-L0G2000

【代码】入门岛-L0G2000。

2024-11-26 17:06:55 261

原创 入门岛-L0G1000

【代码】入门岛-L0G1000。

2024-11-26 09:58:20 201

原创 07 基于MindNLP实现文本解码

Beam search通过在每个时间步保留最可能的 num_beams 个词,并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。按照贪心搜索输出序列(“The”,“nice”,“woman”) 的条件概率为:0.5 x 0.4 = 0.2。选出概率最大的 K 个词,重新归一化,最后在归一化后的 K 个词中采样。在累积概率超过概率 p 的最小单词集中进行采样,重新归一化。缺点: 错过了隐藏在低概率词后面的高概率词。增加高概率单词的似然并降低低概率单词的似然。将出现过的候选词的概率设置为 0。

2024-11-22 08:59:01 335

原创 06 基于MindNLP的Roberta模型Prompt Tuning

加载tokenizer。如模型为GPT、OPT或BLOOM类模型,从序列左侧添加padding,其他情况下从序列右侧添加padding。本案例对roberta-large模型基于GLUE基准数据集进行prompt tuning。prompt tuning配置,任务类型选为"SEQ_CLS", 即序列分类。加载模型并打印微调参数量,可以看到仅有不到0.6%的参数参与了微调。如出现如下告警请忽略,并不影响模型的微调。指定优化器和学习率调整策略。打印参与微调的模型参数。

2024-11-21 16:13:52 377

原创 05 基于MindSpore的GPT2实现文本摘要

本案例默认在GPU P100上运行,因中文文本,tokenizer使用的是bert tokenizer而非gpt tokenizer等原因,全量数据训练1个epoch的时间约为80分钟。为节约时间,我们选取了数据集中很小的一个子集(500条数据)来演示gpt2的微调和推理全流程,但由于数据量不足,会导致模型效果较差。由于训练数据量少,epochs数少且tokenizer并未使用gpt tokenizer等因素,模型推理效果会较差。

2024-11-21 15:44:39 217

原创 04 基于MindSpore通过GPT实现情感分类

注: 如果想要运行的更快一些,可以在训练时需要V100的算力。

2024-11-21 10:22:31 261

原创 02 基于MindSpore实现Transformer实现文本机器翻译

Transformer是一种神经网络结构,由Vaswani等人在2017年的论文“Attention Is All You Need”中提出,用于处理机器翻译、语言建模和文本生成等自然语言处理任务。Transformer与传统NLP特征提取类模型的区别主要在以下两点:Transformer是一个纯基于注意力机制的结构,并将自注意力机制和多头注意力机制的概念运用到模型中;由于缺少RNN模型的时序性,Transformer引入了位置编码,在数据上而非模型中添加位置信息;更容易并行化,训练更加高效;

2024-11-20 17:27:03 677

原创 03基于MindSpore的BERT模型的情感分析

BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。模型是基于Transformer中的Encoder并加上双向的结构,因此一定要熟练掌握Transformer的Encoder的结构。

2024-11-20 13:58:23 1184

原创 01基于MindSpore实现Pytorch项目迁移

本节主要是使用MindTorch在启智平台完成Pytorch的迁移任务。课程内容主要是通过实践案例来学习MindTorch的开发方法。

2024-11-20 09:30:10 617

原创 大数据

2019-01-07 17:41:08 150

原创 机器学习

@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全...

2019-01-07 17:36:23 160

原创 大数据第二部分

YARN的架构YARN的执行流程MapReduce处理数据流程图Hadoop Streaming 实现word countMapper.pyReducer.py1 . cat xxx.txt|python3 mapper.py|sort|python3 reducer.pyhadoop-streaming会主动将map的输出数据进行字典排序2 . run.sh:通过Hado...

2018-12-29 08:13:09 254

原创 Hadoop及其组件

Hadoop框架及其子组件HDFS开源的分布式存储和分布式计算平台Hadoop能做什么:搭建大型数据仓库PB级数据的存储,处理,分析,统计等业务搜索引擎 日志分析数据挖掘商业智能Hadoop核心组件HDFS: 分布式文件系统Namenode DatanodesHadoop YARN 资源调度系统Hadoop MapReduce 分布式计算框架数据输入》》进行拆分》》...

2018-12-29 08:00:53 861

原创 数据挖掘2

day01Matplotlib折线图:描述数据的变化趋势散点图:描述分布直方图:同类别的分布柱状图:不同类型数据的大小比较饼图:比例fig,axes = plt.subplots(nrows=1,ncols=2,figsize=(20,8),dpi=100)#定义一个方法,可以将每一个axes都写入刻度def set_axes(ax):x_ticks=[“11点{}分”.for...

2018-12-29 07:47:14 307

原创 数据挖掘

给导入的文件添加列索引df = pd.DataFrame({'month': [1, 4, 7, 10], 'year': [2012, 2014, 2013, 2014], 'sale':[55, 40, 84, 31]})df.shape是一个元组df.index 行索引df.columns 列索引有s...

2018-12-29 07:45:33 298

原创 爬虫总结14

动态导包getattr()函数对象 = getattr(类对象, 函数名称字符串) # 返回的函数没有被调用类对象 = getattr(模块对象, 类名称字符串)函数对象 = getattr(模块对象, 函数名称字符串) # 模块/函数变量 = getattr(模块对象, 变量名字符串)importlib.import_modle(模块路径字符串)返回模块对象 # py文件对象...

2018-12-04 08:51:25 204 1

原创 scrapy总结

scrapy作用:断点续爬 分布式scrapy_redis扩展组件利用共用的redis来存放请求队列和指纹集合scrapy的工作流程a. 爬虫构造request–爬虫中间件–引擎–调度器对request做去重检查之后入队b. 调度器从队列中取出request–引擎–下载中间件–下载器,发送请求获取responsec. response–下载中间件–引擎–爬虫中间件–爬虫,进行解析...

2018-12-04 08:49:44 228

原创 爬虫总结13

@property方法变属性:调用时不用写括号让属性变成只读‘s123xx’.upper() == ‘S123XX’在python环境中安装自定义的第三方模块a. 包模块文件夹b. setup.pyc. requirements.txtd. VERSION.txte. 以上四个文件或文件夹在同一级目录下f. 在该路径下执行 python setup.py insta...

2018-12-04 08:48:00 186

原创 爬虫总结12

scrapy的setting.py配置a. 常用配置ROBOTSTXT_OBAY = FalseUSER_AGENTDEFAULT_REQUEST_HEADERS # 里边写ua没用 ITEM_PIPELINES SPIDER_MIDDLEWARES DOWNLOADER_MIDDLEWARES # 左位置右权重,值越小先执行 COOKIES_DEBUG = False ...

2018-12-04 08:46:39 230

原创 爬虫总结11

关于appium爬虫使用以及部署https://github.com/butomo1989/docker-androidhttps://zhuanlan.zhihu.com/appiummysql底层https://blog.csdn.net/gitchat/article/details/78787837scrapy_redis作用:断点续爬 分布式scrapy_redis原...

2018-12-04 08:45:40 168

原创 爬虫笔记

import os“”"有一个文件 UTF-8 的文本格式的文件,大小都 为 100G,计算 UTF-8 编码格式文件中的字符个数,计算机内存为 128 M“”"char_nums = 0with open(’./test’, ‘r’, encoding=‘utf8’) as f:while True:ret = f.read(1024) # 这值可以再优化 psutil os sy...

2018-12-04 08:44:44 317

原创 爬虫笔记10

1. middlewares.py中间件的使用# 根据逻辑位置不同分为 # 爬虫中间件 # 下载中间件# 预处理request、response对象 # 替换User-Agent # 替换Cookies # 使用代理ip # 检查响应# 需要在settings.py中设置开启 # 左位置,右权重 # 权重值越小,越优先执行# 中间件中的函数 process_request...

2018-12-03 10:53:47 159

原创 爬虫总结9

1.在spider中构造请求对象scrapy.Request(url,callback=回调函数,method=‘GET’,body={post_data},headers={不能写cookie},cookies={cookies_dict},meta={向callback函数传递数据},dont_filter=False) # 默认过滤重复请求# 专门发送post请求scr...

2018-12-03 10:52:47 147

原创 爬虫总结8

1. 异步和非阻塞的区别异步是过程,非阻塞强调的是状态2. pymongo模块from pymongo import MongoClient# client = MongoClient(host=, port=)uri = 'mongodb://账号:密码@127.0.0.1'client = MongoClient(uri, port=27017) # 连接对象# col = c...

2018-12-03 10:51:30 299 1

原创 爬虫总结7

1. mongod启动sudo mongod --auth --dbpath= --fork --logpath= --logappend2. 权限管理use admindb.createUser({'user':'账号', 'pwd':'密码', 'roles':['root']})db.createUser({'user':'账号', 'pwd':'密码'...

2018-12-03 10:50:10 130

原创 爬虫总结6

1. 反爬手段和应对通过通讯协议来反爬通过用户行为来反爬a. 请求头 User-Agent Referer Cookie等b. 代理ipc. 验证码 打码平台 截图识别 AId. 面包屑 用户访问顺序:url_1 url_2 url_3 爬虫访问顺序:模拟用户的访问顺序e. js反爬 python重写js代码 js2py模块 seleniumf. 切换到...

2018-12-03 10:48:52 133

原创 爬虫总结5

1. chromedriver安装操作系统 chrome浏览器 chromedriver 三者要版本相符2. selenium使用from selenium import webdriveroption = webdriver.ChromeOptions()option.add_argument('--headless') option.add_argument('--disable...

2018-12-03 10:46:51 153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除