- 博客(55)
- 收藏
- 关注
原创 进阶岛-L2G6000
我们可以看到大模型回复了“What are the top 10 e-commerce websites?至此,我们就完成了MindSearch在Hugging Face上面的部署。
2024-12-11 09:57:13
368
原创 进阶岛-L2G3000
在(lmdeploy)虚拟环境下,执行 lmdeploy chat /root/models/internlm2_5-7b-chat,就可以在命令行界面和InternLM2.5尽情对话了,注意输入内容完成后需要按两次回车才能够执行。新打开一个终端,输入nvidia-smi 或者 studio-smi 命令可以查看当前显存的占用情况。
2024-12-09 21:03:15
730
1
原创 进阶岛-L2G2000
通用智能体范式:ReAct(Reasoning and Acting): 推理(Reason)和行动(Action)模型特化智能体范式:InternLM2。
2024-12-04 16:54:38
836
原创 基础岛-L1G5000
首先修改/root/finetune/config/internlm2_5_chat_7b_qlora_alpaca_e3_copy.py配置。
2024-11-30 09:17:52
718
原创 基础岛-L1G2000
玩转书生「多模态对话」与「AI搜索」产品MindSearch开源的 AI 搜索引擎书生·浦语 InternLM 开源模型官方的对话类产品书生·万象 InternVL 开源的视觉语言模型官方的对话产品
2024-11-27 15:32:48
265
原创 基础岛-L1G1000
数据(书生·万卷)->预训练(InternEvo)->微调(XTuner)->部署(LMDeploy)->评测(OpenCompass)->应用(MindSearch/Lagent/MinerU/HuixiangDou)智能体Lagent支持多种类型的智能体能力:ReAct/ReWoo/AutoGPT。数据标注:Lablel LLM、Lable U。目前书生·浦语是InternLM2.5.社区生态:InternLM系列模型。支持100万Token上下文。数据提取:Miner U。
2024-11-27 15:09:11
205
原创 07 基于MindNLP实现文本解码
Beam search通过在每个时间步保留最可能的 num_beams 个词,并从中最终选择出概率最高的序列来降低丢失潜在的高概率序列的风险。按照贪心搜索输出序列(“The”,“nice”,“woman”) 的条件概率为:0.5 x 0.4 = 0.2。选出概率最大的 K 个词,重新归一化,最后在归一化后的 K 个词中采样。在累积概率超过概率 p 的最小单词集中进行采样,重新归一化。缺点: 错过了隐藏在低概率词后面的高概率词。增加高概率单词的似然并降低低概率单词的似然。将出现过的候选词的概率设置为 0。
2024-11-22 08:59:01
335
原创 06 基于MindNLP的Roberta模型Prompt Tuning
加载tokenizer。如模型为GPT、OPT或BLOOM类模型,从序列左侧添加padding,其他情况下从序列右侧添加padding。本案例对roberta-large模型基于GLUE基准数据集进行prompt tuning。prompt tuning配置,任务类型选为"SEQ_CLS", 即序列分类。加载模型并打印微调参数量,可以看到仅有不到0.6%的参数参与了微调。如出现如下告警请忽略,并不影响模型的微调。指定优化器和学习率调整策略。打印参与微调的模型参数。
2024-11-21 16:13:52
377
原创 05 基于MindSpore的GPT2实现文本摘要
本案例默认在GPU P100上运行,因中文文本,tokenizer使用的是bert tokenizer而非gpt tokenizer等原因,全量数据训练1个epoch的时间约为80分钟。为节约时间,我们选取了数据集中很小的一个子集(500条数据)来演示gpt2的微调和推理全流程,但由于数据量不足,会导致模型效果较差。由于训练数据量少,epochs数少且tokenizer并未使用gpt tokenizer等因素,模型推理效果会较差。
2024-11-21 15:44:39
217
原创 02 基于MindSpore实现Transformer实现文本机器翻译
Transformer是一种神经网络结构,由Vaswani等人在2017年的论文“Attention Is All You Need”中提出,用于处理机器翻译、语言建模和文本生成等自然语言处理任务。Transformer与传统NLP特征提取类模型的区别主要在以下两点:Transformer是一个纯基于注意力机制的结构,并将自注意力机制和多头注意力机制的概念运用到模型中;由于缺少RNN模型的时序性,Transformer引入了位置编码,在数据上而非模型中添加位置信息;更容易并行化,训练更加高效;
2024-11-20 17:27:03
677
原创 03基于MindSpore的BERT模型的情感分析
BERT全称是来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers),它是Google于2018年末开发并发布的一种新型语言模型。与BERT模型相似的预训练语言模型例如问答、命名实体识别、自然语言推理、文本分类等在许多自然语言处理任务中发挥着重要作用。模型是基于Transformer中的Encoder并加上双向的结构,因此一定要熟练掌握Transformer的Encoder的结构。
2024-11-20 13:58:23
1184
原创 01基于MindSpore实现Pytorch项目迁移
本节主要是使用MindTorch在启智平台完成Pytorch的迁移任务。课程内容主要是通过实践案例来学习MindTorch的开发方法。
2024-11-20 09:30:10
617
原创 机器学习
@TOC欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全...
2019-01-07 17:36:23
160
原创 大数据第二部分
YARN的架构YARN的执行流程MapReduce处理数据流程图Hadoop Streaming 实现word countMapper.pyReducer.py1 . cat xxx.txt|python3 mapper.py|sort|python3 reducer.pyhadoop-streaming会主动将map的输出数据进行字典排序2 . run.sh:通过Hado...
2018-12-29 08:13:09
254
原创 Hadoop及其组件
Hadoop框架及其子组件HDFS开源的分布式存储和分布式计算平台Hadoop能做什么:搭建大型数据仓库PB级数据的存储,处理,分析,统计等业务搜索引擎 日志分析数据挖掘商业智能Hadoop核心组件HDFS: 分布式文件系统Namenode DatanodesHadoop YARN 资源调度系统Hadoop MapReduce 分布式计算框架数据输入》》进行拆分》》...
2018-12-29 08:00:53
861
原创 数据挖掘2
day01Matplotlib折线图:描述数据的变化趋势散点图:描述分布直方图:同类别的分布柱状图:不同类型数据的大小比较饼图:比例fig,axes = plt.subplots(nrows=1,ncols=2,figsize=(20,8),dpi=100)#定义一个方法,可以将每一个axes都写入刻度def set_axes(ax):x_ticks=[“11点{}分”.for...
2018-12-29 07:47:14
307
原创 数据挖掘
给导入的文件添加列索引df = pd.DataFrame({'month': [1, 4, 7, 10], 'year': [2012, 2014, 2013, 2014], 'sale':[55, 40, 84, 31]})df.shape是一个元组df.index 行索引df.columns 列索引有s...
2018-12-29 07:45:33
298
原创 爬虫总结14
动态导包getattr()函数对象 = getattr(类对象, 函数名称字符串) # 返回的函数没有被调用类对象 = getattr(模块对象, 类名称字符串)函数对象 = getattr(模块对象, 函数名称字符串) # 模块/函数变量 = getattr(模块对象, 变量名字符串)importlib.import_modle(模块路径字符串)返回模块对象 # py文件对象...
2018-12-04 08:51:25
204
1
原创 scrapy总结
scrapy作用:断点续爬 分布式scrapy_redis扩展组件利用共用的redis来存放请求队列和指纹集合scrapy的工作流程a. 爬虫构造request–爬虫中间件–引擎–调度器对request做去重检查之后入队b. 调度器从队列中取出request–引擎–下载中间件–下载器,发送请求获取responsec. response–下载中间件–引擎–爬虫中间件–爬虫,进行解析...
2018-12-04 08:49:44
228
原创 爬虫总结13
@property方法变属性:调用时不用写括号让属性变成只读‘s123xx’.upper() == ‘S123XX’在python环境中安装自定义的第三方模块a. 包模块文件夹b. setup.pyc. requirements.txtd. VERSION.txte. 以上四个文件或文件夹在同一级目录下f. 在该路径下执行 python setup.py insta...
2018-12-04 08:48:00
186
原创 爬虫总结12
scrapy的setting.py配置a. 常用配置ROBOTSTXT_OBAY = FalseUSER_AGENTDEFAULT_REQUEST_HEADERS # 里边写ua没用 ITEM_PIPELINES SPIDER_MIDDLEWARES DOWNLOADER_MIDDLEWARES # 左位置右权重,值越小先执行 COOKIES_DEBUG = False ...
2018-12-04 08:46:39
230
原创 爬虫总结11
关于appium爬虫使用以及部署https://github.com/butomo1989/docker-androidhttps://zhuanlan.zhihu.com/appiummysql底层https://blog.csdn.net/gitchat/article/details/78787837scrapy_redis作用:断点续爬 分布式scrapy_redis原...
2018-12-04 08:45:40
168
原创 爬虫笔记
import os“”"有一个文件 UTF-8 的文本格式的文件,大小都 为 100G,计算 UTF-8 编码格式文件中的字符个数,计算机内存为 128 M“”"char_nums = 0with open(’./test’, ‘r’, encoding=‘utf8’) as f:while True:ret = f.read(1024) # 这值可以再优化 psutil os sy...
2018-12-04 08:44:44
317
原创 爬虫笔记10
1. middlewares.py中间件的使用# 根据逻辑位置不同分为 # 爬虫中间件 # 下载中间件# 预处理request、response对象 # 替换User-Agent # 替换Cookies # 使用代理ip # 检查响应# 需要在settings.py中设置开启 # 左位置,右权重 # 权重值越小,越优先执行# 中间件中的函数 process_request...
2018-12-03 10:53:47
159
原创 爬虫总结9
1.在spider中构造请求对象scrapy.Request(url,callback=回调函数,method=‘GET’,body={post_data},headers={不能写cookie},cookies={cookies_dict},meta={向callback函数传递数据},dont_filter=False) # 默认过滤重复请求# 专门发送post请求scr...
2018-12-03 10:52:47
147
原创 爬虫总结8
1. 异步和非阻塞的区别异步是过程,非阻塞强调的是状态2. pymongo模块from pymongo import MongoClient# client = MongoClient(host=, port=)uri = 'mongodb://账号:密码@127.0.0.1'client = MongoClient(uri, port=27017) # 连接对象# col = c...
2018-12-03 10:51:30
299
1
原创 爬虫总结7
1. mongod启动sudo mongod --auth --dbpath= --fork --logpath= --logappend2. 权限管理use admindb.createUser({'user':'账号', 'pwd':'密码', 'roles':['root']})db.createUser({'user':'账号', 'pwd':'密码'...
2018-12-03 10:50:10
130
原创 爬虫总结6
1. 反爬手段和应对通过通讯协议来反爬通过用户行为来反爬a. 请求头 User-Agent Referer Cookie等b. 代理ipc. 验证码 打码平台 截图识别 AId. 面包屑 用户访问顺序:url_1 url_2 url_3 爬虫访问顺序:模拟用户的访问顺序e. js反爬 python重写js代码 js2py模块 seleniumf. 切换到...
2018-12-03 10:48:52
133
原创 爬虫总结5
1. chromedriver安装操作系统 chrome浏览器 chromedriver 三者要版本相符2. selenium使用from selenium import webdriveroption = webdriver.ChromeOptions()option.add_argument('--headless') option.add_argument('--disable...
2018-12-03 10:46:51
153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人