leap_ruo
码龄13年
关注
提问 私信
  • 博客:204,371
    社区:4,184
    208,555
    总访问量
  • 80
    原创
  • 2,262,855
    排名
  • 22
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2012-03-08
博客简介:

Airstudy的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    595
    当月
    2
个人成就
  • 获得111次点赞
  • 内容获得32次评论
  • 获得241次收藏
  • 代码片获得1,193次分享
创作历程
  • 12篇
    2023年
  • 19篇
    2022年
  • 11篇
    2021年
  • 38篇
    2020年
成就勋章
TA的专栏
  • 算法
    27篇
  • 刷题
    2篇
  • 译文
    6篇
  • 吴恩达机器学习2018笔记分享
  • 基础知识
    7篇
  • 数据结构与算法
    6篇
  • hadoop
    1篇
  • pyspark
    9篇
  • hive
    8篇
  • 填坑笔记
    20篇
  • python
    16篇
  • C++
    3篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大模型数据集融入代码逻辑

大模型的强大通用能力的背后,离不开量级巨大且优质的数据训练集。其中,大模型的推理能力除了得益于刚才提到的大量优质数据集,还可来源于代码逻辑。
原创
发布博客 2023.12.09 ·
624 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

data2text范式和text2text范式

在自然语言处理中,常见两种范式:data2text范式和text2text范式。那么它们具体指什么呢?
原创
发布博客 2023.08.26 ·
465 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

评价指标lawrouge

Rouge是文本自动摘要领域摘要评价技术的通用指标之一,通过统计模型生成的摘要与人工摘要之间重叠的基本单元,评判模型生成摘要的质量。总之,中文lawrouge和ROUGE在算法原理和目的上基本一致,但是在匹配项的处理以及数据集的选择等方面有所不同。,通常用于评估中文文本摘要的质量。与ROUGE相比,中文lawrouge改变了匹配未知词汇和处理中文字符等方面,更适用于中文语言处理的评估。中文lawrouge对中文字符和未知词汇的处理更加合理,可以对中文文本进行分词和字符级别的处理。
原创
发布博客 2023.08.26 ·
375 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

评价指标BLUE了解

BLEU指标根据生成的句子与人工参考句子之间的词、短语和n-gram匹配来计算模型的性能。因此,实际中通常使用bleu-1,bleu-2,bleu-3和bleu-4等四个BLEU指标来计算短语匹配的精度。然而,它存在着一些缺点,比如可能会倾向于短而不是长的句子,不能很好地衡量语法和语义问题,因此,通常需要结合其他评估指标一起使用来评估模型性能。BLEU指标具有较好的可解释性,直接基于n-gram重叠度来衡量生成文本和参考文本之间的相似度。获取参考文本中每个n元组的最大数量,并视为生成文本的最多可能匹配数。
原创
发布博客 2023.08.26 ·
1858 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

pyspark中list转换dataframe

通过pandas来做转换。
原创
发布博客 2023.07.15 ·
827 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

调用chatGML-6B原始模型报错:RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseF

根据chatGML-6B官网提示,准备做简单的预训练,样本数据用的也是官方提供的。这个可以根据本地模型大小判断是否真正被clone下来,如果没用采用以下方式。
原创
发布博客 2023.07.15 ·
2718 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

安装TensorFlow时报错 zsh: illegal hardware instruction python

下载地址:https://driver.google.com/drive/folders/1oSipZLnoeQB@Awz8U68KYeCPsULy_dQ7T。如果是安装TensorFlow 1.x版本,一般不会出现这个问题,可以直接使用pip安装。下载tensorflow-2.4.1-py3-none-any.whl文件。
原创
发布博客 2023.07.15 ·
1004 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ChatGPT前身GPT的论文-译文

GPT论文,ChatGPT,小样本学习,零样本学习,zero-shot,few-shot,自然语言任务
原创
发布博客 2023.07.08 ·
537 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive 按照某字段聚类在排序,添加编号

使用row_number()函数数据样例,给每行添加编号,排序编号
原创
发布博客 2023.05.25 ·
723 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive按字段转多行、列转行

使用explode函数,列转行
原创
发布博客 2023.05.25 ·
370 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

安装openai环境 步骤及问题解决

安装openai环境,使用大模型。解决报错:ERROR: No matching distribution found for pandas>=1.2.3、 解决报错AttributeError:module 'openai' has no attribute'Chatcompletion'
原创
发布博客 2023.05.24 ·
8053 阅读 ·
2 点赞 ·
0 评论 ·
11 收藏

pyspark报错:ValueError: object of IntegerType out of range

pyspark报错:ValueError: object of IntegerType out of range,长整型LongType
原创
发布博客 2023.02.04 ·
284 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

GLUE 数据集介绍

来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解(NLU)基准和分析平台,也就是GLUE(General Language Understanding Evaluation),自然所有数据集均为英文,包含 CoLA、SST-2、MRPC、STSB、QQP、MNLI、QNLI、RTE、WNLI
原创
发布博客 2022.11.30 ·
611 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

pyspark中DataFrame之间的join操作

在pyspark中加载sql之后,会经常遇到各DataFrame之间的join操作,以下给出集中join的调用方式。
原创
发布博客 2022.11.23 ·
1817 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

pyspark 并行调用udf函数

中我们使用pyspark定义好的udf逐条处理数据(dataframe)。这篇文章提供一种“并行”调用udf的方法。使用这种方式,会大大减少数据计算时间。其他补充,以下是几个常见的类型。
原创
发布博客 2022.11.22 ·
718 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【pytorch报错】If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True

说来解决办法有点水,参考之前有效的机器,发现torch的版本是1.11,后来将原始版本升级到1.11。加载torch的huggingface的bin模型,未使用复杂处理逻辑,但是出现异常,详细报错内容。发现机器上并没有安装TF。...
原创
发布博客 2022.08.28 ·
10190 阅读 ·
2 点赞 ·
3 评论 ·
4 收藏

pyspark中udf写法及其使用

这里的不需要参数,是指udf不需要传入公共的参数(这个里的公共是对udf中多个参数模块而言的),且该参数非dataframe中的字段。udf是处理dataframe比较常见且便捷的功能模块,用户自定的处理功能封装在udf中,使得dateframe的处理变得通俗可控。...
原创
发布博客 2022.07.25 ·
1332 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

pyspark 中dataframe 按指定字段拆分为多列或者多行

在使用dataframe时,我们常常需要依据应用场景,需要将原来一条record拆分为多行(字段数增加1个,record增加),或者在一个record中根据已有字段拆分为多列(仍是1个record,字段数增加)这里还有另外一个问题,如果我们原始数据并没规律的以@分割的固定格式字段,或者原始数据中并没有事先准备好的array格式的字段,如何生成呢?这里个functions.explode和hive中的explode作用类似,可参考。中的explode使用。udf的使用,可以参见。......
原创
发布博客 2022.07.25 ·
4085 阅读 ·
1 点赞 ·
0 评论 ·
7 收藏

概率题 —— 某公路1小时有车概率为0.96

某段公路上1小时有车通过的概率是0.96,半小时有车通过的概率是多少?P(1小时有车)= 1 - P(1小时没车)= 1 - p(前半小时没车) * P(后半小时没车)= 1 - P(半小时没车) * P(半小时没车)= 0.96那么可以计算出P(半小时没车) = 1−0.96\sqrt{1 - 0.96}1−0.96​ = 0.2继而得到:P(半小时有车)= 1 - P(半小时没车)= 1 - 0.2= 0.8在题干以及解答答案的过程,其实都有个默认的假设:假设任意1小时/半小时有车
原创
发布博客 2022.07.06 ·
815 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

动态规划--跳跃问题

给出一个非负整数数组,你最初在数组第一个元素的位置数组中的元素代表你在这个位置可以跳跃的最大长度判断你是否能到达数组最后一个元素的位置例如A =[2,3,1,1,4], 返回 true.A =[3,2,1,0,4], 返回 false.A =[3,4,1,0,4], 返回 true.有了记录数组之后,要解决的就剩下,如何计算当前位置可以到的最原位置。分析完之后可动手写代码了...
原创
发布博客 2022.07.06 ·
728 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多