灯下夜无眠-CSDN博客

原创 Linux（centos7）部署spark

Spark部署模式主要有4种：Local模式（单机模式）、Standalone模式（使用Spark自带的简单集群管理器）、Spark On Yarn模式（使用YARN作为集群管理器）和Spark On Mesos模式（使用Mesos作为集群管理器）。下面介绍Local模式（单机模式）、跟Spark On Yarn模式（使用YARN作为集群管理器）的简单部署。spark on local模式以及spark on yarn模式部署完成。选择想要安装的版本下载，然后通过Linux客户端Xshell等上传到主机。

2024-04-03 14:32:47 553

原创 Linux（centos7）部署hive

在Hive 的 conf 目录内，新建hive-env.sh 跟 hive-site.xml两个文件。已部署完hadoop(HDFS 、MapReduce 、YARN)在hive目录使用普通用户新建一个文件夹，存放日志输出。在MySQL 中新建数据库： hive。要先启动hdfs集群、yarn集群。1、安装元数据服务MySQL。hive正常启动，部署完成。3、下载解压安装hive。6、初始化hive元数据。4、提供mysql驱动。2、配置hadoop。7、启动hive服务。

2024-03-27 12:00:40 786 1

原创 Linux（centos7）部署hadoop集群

dfs.datanode.data.dir/data/dn 说明：配置DataNode存储实际数据块的本地目录位置，这里是 /data/dn。dfs.datanode.data.dir.perm700 说明：该配置项设置DataNode存储数据块目录的权限模式。dfs.namenode.name.dir/data/nn 说明：此配置项指定了NameNode存储元数据信息（如文件系统的命名空间，文件到数据块映射等）的本地目录位置，这里是 /data/nn。bin：存放Hadoop的各类程序（命令）

2024-03-26 11:41:16 677

原创 Linux简单基础配置

以下配置一般需要切换为root用户下进行。然后在每台主机对应修改即可。执行过程输入密码确认即可。

2024-03-21 18:09:48 632

原创 peft模型微调_IA3

IA3（论文：Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning），通过学习向量来对激活层加权进行缩放，从而获得更强的性能，同时仅引入相对少量的新参数，如下图左边所示，它的诞生背景是为了改进 LoRA。给定注入 IA3 参数的目标层，可训练参数的数量可以根据权重矩阵的大小确定。对于 T0 模型，使用 IA3 的可训练参数更少。使用 IA3 微调的模型的性能与完全微调的模型的性能相当。

2024-03-20 16:34:39 221

原创 peft模型微调_Lora

1、增加低秩矩阵：对于每一个要微调的层，LoRA不改变原有模型参数矩阵，而是引入两个低秩矩阵A和B，维度分别为dxr和rxd，其中r远小于d（d是原权重矩阵的列数或行数，通常是模型的隐藏维度大小）。5、合并参数：训练完成后，新学到的低秩矩阵参数与原始模型参数结合，共同作用于模型预测，在保证模型对新任务有良好表现的同时，避免了在推理阶段增加额外的计算负担。3、冻结原始参数：在微调过程中，原有的模型参数W会被冻结，即在训练时不会更新，只针对新增的低秩参数A和B进行优化。

2024-03-20 15:45:19 407

原创 python读取s3文件数据

它允许用户通过命令行界面上传、下载、管理存储在S3上的文件和桶（bucket）。在S3中，用户可以存储和检索任意数量的数据，包括文件、图片、视频等任何类型的二进制数据或文本数据，并通过互联网进行访问。安全性：支持多种加密方式，如服务器端加密（SSE-S3, SSE-KMS, 或者客户提供的密钥），以及访问控制列表（ACL）和IAM策略来管理权限。易用性：提供了简单的Web界面和丰富的API接口，便于管理和操作存储桶及其中的对象。大规模存储：能够存储PB级的数据，并能处理极高的请求率。进行多部分上传大文件。

2024-03-20 15:27:26 411

原创 peft模型微调_Prefix-tuning

与传统的Fine-tuning方式不同，Prefix-Tuning不是对模型的所有参数进行更新，而只是在每个Transformer层的输入序列前添加一个可学习的“prefix”向量序列，仅对这些prefix向量进行优化以适应特定任务。在实际应用中，对于不同的下游任务，只需训练一组特定的prefix向量，而无需改变模型原有的参数。2、训练完成后，保存最优的prefix向量，然后在预测阶段将它们插入到对应层的输入序列前端，与原始输入文本一起输入到预训练模型中，从而得到任务相关的预测结果。

2024-03-13 10:07:08 187

原创 peft模型微调--P-tuning

在P-Tuning中，通常会为输入序列添加一个或多个可学习的向量（虚拟token），这些向量作为额外的“prompt”嵌入到模型的输入序列中，用于指导模型生成与特定任务相关的输出。随着技术的发展，P-Tuning已经迭代到了多个版本（如P-Tuning v1/v2等），每个版本可能有其独特的设计和优化策略。初始化模型：加载预训练的大规模语言模型，并设置模型为只训练部分参数，即只更新prompt token的嵌入。测试与部署：完成训练后，在测试集上评估模型性能，并将微调好的模型应用于实际场景。

2024-03-12 17:18:45 492 2

原创 peft模型微调--Prompt Tuning

PEFT（Parameter-Efficient Fine-Tuning）是一种针对大模型微调的技术，其核心思想是在保持大部分预训练模型参数不变的基础上，仅对一小部分额外参数进行微调，以实现高效的资源利用和性能优化。模型微调（Model Fine-Tuning）是指在预训练模型的基础上，针对特定任务进行进一步的训练以优化模型性能的过程。Adapter Layers：在模型的各个层中插入适配器模块，这些适配器模块通常具有较低的维度，并且仅对这部分新增的参数进行微调，而不改变原模型主体的参数。

2024-03-12 15:02:02 642

原创 transformers文本摘要生成

生成式方法使用深度学习模型，如Transformer、seq2seq模型（如带有注意力机制的LSTM）等，训练模型预测每个单词作为摘要一部分的概率，从而生成连贯的新颖摘要。文本摘要生成是自然语言处理（NLP）中的一个重要任务，目标是从原始文本中提取关键信息并形成一个简短且保留核心内容的摘要。抽取式方法从原文中直接挑选出重要的句子或片段组合成摘要，通常基于文本的重要性评分，如词频、句子位置、句间关联性等。结合抽取和生成两种方式，先抽取重要部分，再根据上下文生成补充信息，以提高摘要的质量和准确性。

2024-03-05 16:41:10 414 1

原创 transformers多项选择

预训练模型如BERT、RoBERTa、MacBERT等，在多项选择任务上取得了显著的进步，它们通过预训练和微调的方式学习如何根据输入的文本信息来判断哪些选项是最合理的。在自然语言处理（NLP）中，多项选择任务是一种常见的问题类型，它要求模型从给定的多个选项中选择一个或多个正确的答案。阅读理解题目：给出一篇文章和几个基于文章内容的问题，每个问题下面有若干个候选答案供选择，模型需要理解文本内容并确定正确答案。文章：英国是欧洲的一个岛国，首都是伦敦。问题：英国的首都是？正确答案：C. 伦敦。

2024-03-05 14:41:03 206

原创 transformers命名体识别

命名体识别（Named Entity Recognition，简称NER）是自然语言处理（Natural Language Processing, NLP）领域中的一项关键技术，其主要任务是从非结构化的文本数据中自动识别并抽取具有特定意义的实体信息。这些实体通常是指人名、地名、组织机构名、日期时间、货币金额、百分比等具有特定类别属性的词汇或短语。在实际应用中，命名实体识别有助于构建更丰富的信息索引，对于信息检索、问答系统、机器翻译、情感分析和知识图谱构建等领域都至关重要。

2024-03-05 10:01:52 321

原创 transformers文本相似度

通过将文本转换为向量表示（例如，使用词袋模型、TF-IDF 或 word2vec、GloVe 等词嵌入技术），然后计算这两个向量之间的余弦夹角来评估相似度。利用如BERT这样的Transformer架构的预训练模型，可以直接获取句子级别的向量表示，然后计算这些向量之间的相似度。训练网络以学习将文本映射到一个固定大小的向量空间，其中相似的文本对应相近的向量，从而可以直接比较向量间的距离或相似度得分。对于分词后的文档集合，可以计算它们的交集与并集的比例，以此作为相似度指标。编辑距离较小，表明文本更相似。

2024-03-01 15:59:52 483

原创 transformers阅读理解

具体来说，阅读理解任务通常会提供一段长文本和一个或多个与该文本相关的问题，模型需要理解这段文本的内容，并根据问题从中找到答案。例如，在SQuAD（Stanford Question Answering Dataset）这样的数据集中，模型需要读取一段文章，然后回答基于该文章提出的具体问题，输出的答案通常是原文中的某个片段。在自然语言处理（NLP）领域，阅读理解是一项重要的任务，它的目标是让模型能够理解文本，并根据给定的查询准确地从文本中抽取或生成相关信息。

2024-03-01 14:53:33 152

原创 transformers生成式对话机器人

生成式对话机器人是一种人工智能技术，它通过学习大量自然语言数据，模拟人类进行开放、连贯和创造性的对话。6、对话管理：除了基本的回复生成之外，一个完整的对话机器人还需要对话管理模块来跟踪对话状态，确保对话流程的连贯性以及适时切换话题或结束对话。5、强化学习：有时会结合强化学习策略来优化对话机器人的行为，使其能适应不断变化的环境，并根据用户的反馈调整对话策略以达到更好的交互效果。3、训练数据：为了实现高质量的对话生成，需要大量的对话数据集来训练模型，这些数据可以是电影剧本、社交媒体对话、论坛帖子、客服记录等。

2024-02-29 11:02:21 987

原创 transformers模型预训练

掩码语言模型预训练是自然语言处理领域中的一种重要技术，主要用于学习文本的上下文表征。因果语言模型（Autoregressive Language Model）预训练是一种自然语言处理中基于自回归机制的模型训练方法，与掩码语言模型（如BERT）不同，因果语言模型在预训练时是单向预测序列中的下一个词。通过这种自回归的方式学习大量未标注文本数据，因果语言模型能够捕获词语间的长期依赖关系和潜在的语言规律，并在预训练完成后应用于各种下游任务，如文本生成、问答系统等，同样需要微调来适应特定任务的需求。

2024-02-29 09:24:01 386

原创 transformers文本分类

文本分类是最常见的NLP任务之一，做其他NLP任务处理时的步骤流程基本一样，主要在于不同任务需要做不同的数据处理，下面介绍如何使用transformers做文本分类的一个大致流程。

2024-02-27 12:35:31 338

原创 transformer基础组件使用

介绍transformer一些主要组件的基本使用，几乎所有的NLP任务都可以套用这些基础组件来完成。6、Trainer、TrainingArguments基本使用。2、tokenizer基本使用。3、datasets基本使用。5、evaluate基本使用。1、pipline基本使用。4、model基本使用。

2024-02-26 10:38:36 292

原创 pyspark自定义UDF函数

当遇到一些复杂特殊的计算场景时，只通过pyspark的内置函数无法达到我们想要实现的效果，此时，可通过自定义函数然后注册为UDF函数，就能够很好的解决复杂计算场景问题，且计算效率非常快速。计算5000多万数据，仅需一分钟不到，效率非常高。

2024-02-26 09:09:23 697

原创 spark超大数据批量写入redis

利用spark的分布式优势，一次性批量将7000多万的数据写入到redis中。执行时间可能跟资源环境有关，测试整个过程大概只需要5分钟左右，非常快速。

2024-02-23 09:16:45 595

原创 pyspark统计指标计算

下面介绍如何使用pyspark处理计算超大数据的统计指标，主要为：最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。

2024-02-22 15:37:56 405

原创 Ubuntu20配置仅主机网络

进入终端：vim /etc/netplan/01-network-manager-all.yaml。Ubuntu20配置仅主机网络，使虚拟机与物理机网络联通且配置固定IP。网关：gateway4: 192.168.138.1。要固定的IP：192.168.138.108。改静态：dhcp4: false。

2023-08-10 17:35:12 282

原创 Linux常用操作

公认端口： 1~1023 ，通常用于一些系统内置或知名程序的预留使用，如 SSH 服务的 22 端口， HTTPS 服务的443 端口，非特殊需要，不要占用这个范围的端口。在 Linux 系统中， $ 符号被用于取”变量”的值，取得环境变量的值就可以通过语法： $ 环境变量名来取得。IP 地址相当于小区地址，在小区内可以有许多住户（程序），而门牌号（端口）就是各个住户（程序）的联系。注册端口： 1024~49151 ，通常可以随意使用，用于松散的绑定一些程序 \ 服务。

2023-08-08 22:08:53 464

原创神经网络调参--使用hyperopt调整超参数

记录使用hyperopt对神经网络调整超参数。

2023-02-14 15:41:03 723 1

原创神经网络调参--BayesianOptimization

使用BayesianOptimization对神经网络进行调参

2023-02-14 15:00:43 358

原创 sqoop学习

连接关系型数据库use sqoop;id int,);(1,‘thomas’,‘男’),(2,‘catalina’,‘女’);– sqoop的导入导出是相对hdfs而言，如果数据从rdbms进入到hdfs，则为导入；从hdfs到出到rdbms则为导出– 全局导入数据 sqoop import– 导入数据 delete-target-dir 导入之前删除原来的数据–num-mappers 1 \ – 只开一个mapreduce。

2022-11-28 19:46:41 589

原创 hive-学习汽车销售分析

from car_table where gender = ‘男性’ or gender = ‘女性’),4)*100||‘%’ raite。where (t.gender = ‘男性’ or t.gender = ‘女性’) and t.brand is not null。=‘非营运’,t1.sal_nums,0)) cycar_nums – 3884。sum(if(t1.nature=‘非营运’,t1.sal_nums,0)) sycar_nums – 66478。--跳过文件行首1行;

2022-11-28 19:42:58 935

原创 hive-学习微博日志分析

先将查询结果保存到临时表再根据临时表的路径导出即可默认会在/usr/local/hive_dw/weibo_db.db/wb_user_nums。–微博中评论次数小于1000的用户id和数据来源。–用户所有微博被转发的总数，输出前10个用户。–被转发次数最多的前10条微博，输出用户id。–统计使用iphone发微博的独立用户数。– 将查询的数据导出到mysql中。–微博总量 1451868。–每个用户发布的微博总数。–统计带图片的微博数。

2022-11-28 19:40:01 519

原创 hive-学习搜狗日志分析

round(sum(if(t1.user_kw_rank>3,1,0))/count(t1.uid),2)*100 || ‘%’ over_three_rts --搜索三次以上。,round(sum(if(t1.user_kw_rank=2,1,0))/count(t1.uid),2)*100 || ‘%’ tow_nums_rts --只搜索两次。sum(if(instr(t.url,t.keyword)>0,1,0)) – 27561 可看出大部分搜索URL，并不能得到自己想要的结果。

2022-11-28 19:38:51 833

原创 hivesql基本操作

hive基本语法10/11––dbeaver链接hive的办法：如果vscode上面有做端口映射可以直接使用localhost登录；如果没有做端口映射，需要用主机ip地址登录–dbeaver链接mysql的办法:先在vscode上面有做端口映射再根据映射的端口登录即可--只会删除元数据（mysql的数据）–删除数据库加上cascade关键字会做级联删除，把数据库以及数据库下的所有表跟内容都删除掉–而且会同时mysql上的元数据跟hdfs上的文件内容；

2022-11-28 19:34:55 1160

原创 chapter1

说明：本系列代码均来源于–《Python数据分析于数据化运营》–宋天龙，嵌入Matplotlib图像%matplotlib inline%config InlineBackend.figure_format='retina'1. 导入库import pandas as pdfrom matplotlib import pyplot as pltfrom sklearn import linear_modelfrom sklearn.metrics import mean_squared_e

2022-08-19 14:56:21 74

原创产品、用户数据分析

数据分析项目

2022-06-10 21:27:38 305

原创 10数据类型转换--容器类数据类型

容器类型数据转换list 列表‘’’数字类型是非容器类型，不能转换为列表字符串转换为列表时会把字符串中的每一个字符当做列表的元素集合可以转换为 list列表类型元组可以转换为 list列表类型字典可以转换为 list列表类型,只保留了字典中的键‘’’n = {‘name’:‘zhangsan’,‘age’:20}res = list(n)print(n,type(n),res,type(res))tuple 元组‘’’数字类型非容器类型，不能转换为元组其它容器类

2022-02-13 14:05:05 107

原创 09数据类型转换

数据类型转换数据类型总结‘’’字符串 string数字类型 Number整型 int浮点 float复数布尔 bool列表 list元组 tuple字典 dict集合 set可变数据类型：列表，字典，集合不可不数据类型：字符串，数字，元组容器类型数据：字符串，列表，元组，集合，字典非容器类型数据：数字，布尔类型‘’’数据类型转换‘’’什么是数据类型转换？把一个数据类型转换为另一个数据类型，例如字符串转为数字为什么需要数据类型转换？因为不同的数据

2022-02-13 14:03:56 74

原创 08数据类型--集合

set集合类型‘’’set集合是一个无序且元素不重复的集合的数据类型set集合使用中括号或者set()方法来定义‘’’集合的定义方式vars = {1,2,3,‘a’,‘b’,1}vars = set(‘123456’)如果需要定义一个空集合时只能使用 set()方法,因为大括号时定义的空字典vars = {}vars = set()print(vars,type(vars)) # <class ‘set’>a = {1,2,3,‘a’}给集合添加元素a.

2022-02-13 14:02:49 77

原创 07数据类型--字典

Dict 字典类型‘’’字典也是用于存储一组或多组数据时使用，使用大括号 {}来定义字典是键值对的存储方式 name ：admin键和值之间使用冒号进行分隔，多组键值对之间使用逗号分隔键必须是字符串或数字类型，值可以是任意类型键名不能重复，值可以重复‘’’比如需要记录一本书的相关数据书名，作者，价格，。。。vard = {‘title’:’<<鬼谷子>>’,‘author’:‘鬼谷子’,‘price’:‘29.99’}print(vard,type(va

2022-02-13 14:01:51 572

原创 06数据类型--元组

tuple 元组类型‘’’在定义多个数据内容时，可以选择使用List列表类型还可以使用元组类型来定义，元组和列表非常像，都时用于存储多个数据时使用元组使用小括号进行定义（），列表使用中括号进行定义‘’’tuplevart = (1,2,3,‘a’,‘b’)print(vart,type(vart))print(vart[3])注意在定义元组时，如果元组中只有一个元素，那么需要加, 不然就不是元组类型了vart = (123,)元组的其它定义方式vart = 1,2,3prin

2022-02-13 14:00:39 388

原创 05数据类型--列表

list 列表类型列表用来表示一系列数据，例如：需要记录一组数字或其它数据列表中存储的数据可以是任意类型的在需要记录多个数据时，可以使用中括号进行定义 [],并且每个数据之间使用逗号分隔 ,例如以下数据，定义了几组数字varlist = [192,168,200,68]print(varlist,type(varlist)) # <class ‘list’>列表中存储的每一组数据，称为元素varlist = [‘a’,‘b’,521,‘pai’,3.1415926]pri

2022-02-13 13:59:10 283

原创 04数据类型--数字型

数字类型 Number‘’’int 整型float 浮点类型complex 复数bool 布尔类型（True，False）‘’’varn = 521varn = -1111varn = 3.1415926varn = 0x10 # 十六进制varn = b’001100111’ # bytes复数varn = 5+6j # complex布尔类型 boolvarn = Truevarn = Falseprint(varn,type(varn))数值类型可以参与

2022-02-13 13:57:52 222

空空如也

空空如也