自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 大数据爬虫

构建请求URL:将更新后的请求字典转换为JSON字符串,并去除其中的空格,然后对该字符串进行URL编码,最后将其附加到API基础URL上,形成完整的请求URL。处理响应文本并保存数据为CSV文件:如果JSON字典中的msg字段值为'OK',则认为请求成功,并将结果添加到current_stock_result列表中。本文选取了保利发展、碧桂园、富力地产、华润置地、金科股份、龙湖集团、绿地控股、融创中国、万科A、中海地产十只股票,对同花顺官网的股价信息和东方财富网资讯、股吧进行了爬取,并生成词云。

2024-06-01 15:57:23 1505

原创 隐私计算第一期 数据可信流通,从运维信任到技术信任

信任概念由于其抽象性和结构复杂性,在社会学、心理学、营销学、经济学、管理学等不同的领域定义是不同的,但是达成共识的观点是:信任是涉及交易或交换关系的基础。技术体系:包括跨域计算、跨域存储、可信审计等,不允许本地运维单方决策。可以通过隐私计算、可信计算、机密计算 等不同技术路线实现,但技术要求标准是一致的。①对运维人员的限制;②对数据研发过程的管控;③对全链路可信审计的保障。

2024-03-20 22:06:50 209 1

原创 第六节作业

【代码】第六节作业。

2024-03-18 22:42:19 191

原创 第六节作业

1. 课程作业2. 一些课程笔记欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MarkdownText-to-HTMLAuthorsJohnLuke。

2024-03-18 22:40:35 822

原创 第5节作业

AWQ算法 <> GPTQ算法(之前的sota), 前者推理速度快,量化时间短。可以直接启动本地的 Huggingface 模型,如下所示。Continuous Batch,主要是一个持续的批处理。推理引擎 turboMind 做了非常多的优化。server端帮你存上下文,不需要用户去带。TurboMind 推理+命令行本地对话。kv-cache int8 量化。推理服务API SERVER。LMDeploy 部署实战。计算密集 + 访存密集两种。ssh隧道端口转发后。

2024-03-17 23:24:08 536 1

原创 第4节作业

分为增量预训练 和 指令跟随指令微调:instructed 大模型,告诉他要回答一个问题完成对话模板System 部分不需要用户指定,但在推理时可以更改User 部分是用户添加的只需要在后边答案的部分计算loss, 前民的模板处不用。

2024-03-17 22:55:52 761 1

原创 第三节作业

InternLM 接入 LangChain。

2024-03-17 16:34:49 276 1

原创 第二节作业

4.完成 Lagent 工具调用 Demo 创作部署。3.完成浦语·灵笔的图文理解及创作部署。

2024-03-17 16:20:57 67 1

原创 第六节笔记 OpenCompass大模型评测

2024-02-18 19:03:33 191 1

原创 第五节笔记 LMDeploy大模型量化部署实践

2024-02-18 18:53:49 194 1

原创 第四节笔记 XTuner大模型单卡低成本微调实战笔记

介绍了XTuner工具的一些重要功能,如何通过已有的训练配置文件来自定义训练配置。还有一些XTuner的基础命令.在LLM的下游应用中主要使用的微调方式是。是将新领域的文本内容喂给大模型。3. 8GB 显卡玩转LLM。1. Finetune简介。是根据一些对话模版进行微调。2. XTuner介绍。

2024-02-18 15:27:46 270 1

原创 第三节笔记 基于 InternLM 和 LangChain 搭建知识库

LangChai:开源工具,通过为各种LLM提供通用接口来简化应用程序的开发流程,帮助开发者自由构建LLM应用。其核心组成模块是Chains,可以见各种组建组合实现应用。虽然源文件可以是各种格式的,但是存入向量数据库之后都会成为纯的以向量形式存储的字符串。RAG:检索增强生成。低成本、可实时更新、受基座模型影响大、单次回答知识有限。加载源文件--文档分块--文档向量化。知识的时效性(最新知识)专业能力有限(垂直领域)定制化成本高(个人专属)

2024-02-18 15:05:11 254 1

原创 第二节笔记 轻松玩转书生·浦语大模型趣味Demo

2024-02-12 11:02:11 146 1

原创 第一节笔记 书生·浦语全链条开源开放体系

2024-02-12 10:23:38 167 1

原创 11.4 学习记录

http://t.csdnimg.cn/oaUoM

2023-11-04 22:01:14 29 1

原创 10.31 学习记录

subplot函数用法subplot(m,n,p)或者subplot(m n p)。subplot()是将多个图画到一个平面上的工具。其中,m 表示 p 个图排成 m 行,n 表示图排成 n 列。在 Matplotlib 中,可以通过修改rcParams中的参数值来改变图形的默认行为。这些参数包括图形的颜色、线形、线宽、字体样式、图像分辨率等。

2023-10-31 22:42:37 24 1

原创 10.25 学习记录

csv保存data = Pretreatment(trainfile)data_test = Pretreatment(testfile)data.to_csv("tyh1.csv")data_test.to_csv("tyh2.csv")

2023-10-25 22:56:26 57 1

原创 学习记录 10.24

学习离散化的多种方法。

2023-10-24 22:33:26 28

原创 10.21 学习记录

是一个简单的弱分类算法提升过程。通过不断的训练提高对数据的分类能力。误差率低的弱分类器在最终分类器中占的比例较大。输入一个新的样本,让森林中的每一棵决策树分别进行一下判断。对于缺失值占比较大的字段使用不含缺失值的数据作为训练集,使用随机森林预测缺失值并填充。--删除unknown大于30%的列。对于含有缺失值数据占比较小的字段直接删除这些缺失值所在的数据--删除含有'unknown'的行。参考如下模型,对比不同处理方法的准确率·,选取更高的。以某个数据为中心,分析离其最近的K个邻居的类别.

2023-10-21 21:33:36 26 1

原创 10.20 学习记录

参数inplace 默认情况下为False,表示保持原来的数据不变,True 则表示在原来的数据上改变。mode(data)[0][0] 进一步取出了众数值中的第一个(唯一的)元素。mode(data)[0] 取出了这个元组中的第一个元素,即众数的值。mode()函数用来求众数 ---mode(data)[0][0]mode(data)返回了一个元组对象,元组中包含众数值和出现次数。如果要删除某列,需要axis=1;tolist()函数---a.tolist(),data是一个数据集(可能是列表、数组等)

2023-10-21 21:09:35 27

原创 10.18 学习记录

下载安装 visual studio code 并匹配环境。创建工作空间并学习常用操作。

2023-10-18 22:51:44 24

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除