评价指标lawrouge Rouge是文本自动摘要领域摘要评价技术的通用指标之一,通过统计模型生成的摘要与人工摘要之间重叠的基本单元,评判模型生成摘要的质量。总之,中文lawrouge和ROUGE在算法原理和目的上基本一致,但是在匹配项的处理以及数据集的选择等方面有所不同。,通常用于评估中文文本摘要的质量。与ROUGE相比,中文lawrouge改变了匹配未知词汇和处理中文字符等方面,更适用于中文语言处理的评估。中文lawrouge对中文字符和未知词汇的处理更加合理,可以对中文文本进行分词和字符级别的处理。
评价指标BLUE了解 BLEU指标根据生成的句子与人工参考句子之间的词、短语和n-gram匹配来计算模型的性能。因此,实际中通常使用bleu-1,bleu-2,bleu-3和bleu-4等四个BLEU指标来计算短语匹配的精度。然而,它存在着一些缺点,比如可能会倾向于短而不是长的句子,不能很好地衡量语法和语义问题,因此,通常需要结合其他评估指标一起使用来评估模型性能。BLEU指标具有较好的可解释性,直接基于n-gram重叠度来衡量生成文本和参考文本之间的相似度。获取参考文本中每个n元组的最大数量,并视为生成文本的最多可能匹配数。
调用chatGML-6B原始模型报错:RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseF 根据chatGML-6B官网提示,准备做简单的预训练,样本数据用的也是官方提供的。这个可以根据本地模型大小判断是否真正被clone下来,如果没用采用以下方式。
安装TensorFlow时报错 zsh: illegal hardware instruction python 下载地址:https://driver.google.com/drive/folders/1oSipZLnoeQB@Awz8U68KYeCPsULy_dQ7T。如果是安装TensorFlow 1.x版本,一般不会出现这个问题,可以直接使用pip安装。下载tensorflow-2.4.1-py3-none-any.whl文件。
安装openai环境 步骤及问题解决 安装openai环境,使用大模型。解决报错:ERROR: No matching distribution found for pandas>=1.2.3、 解决报错AttributeError:module 'openai' has no attribute'Chatcompletion'
pyspark报错:ValueError: object of IntegerType out of range pyspark报错:ValueError: object of IntegerType out of range,长整型LongType
GLUE 数据集介绍 来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解(NLU)基准和分析平台,也就是GLUE(General Language Understanding Evaluation),自然所有数据集均为英文,包含 CoLA、SST-2、MRPC、STSB、QQP、MNLI、QNLI、RTE、WNLI
pyspark 并行调用udf函数 中我们使用pyspark定义好的udf逐条处理数据(dataframe)。这篇文章提供一种“并行”调用udf的方法。使用这种方式,会大大减少数据计算时间。其他补充,以下是几个常见的类型。
【pytorch报错】If you tried to load a PyTorch model from a TF 2.0 checkpoint, please set from_tf=True 说来解决办法有点水,参考之前有效的机器,发现torch的版本是1.11,后来将原始版本升级到1.11。加载torch的huggingface的bin模型,未使用复杂处理逻辑,但是出现异常,详细报错内容。发现机器上并没有安装TF。...
pyspark中udf写法及其使用 这里的不需要参数,是指udf不需要传入公共的参数(这个里的公共是对udf中多个参数模块而言的),且该参数非dataframe中的字段。udf是处理dataframe比较常见且便捷的功能模块,用户自定的处理功能封装在udf中,使得dateframe的处理变得通俗可控。...
pyspark 中dataframe 按指定字段拆分为多列或者多行 在使用dataframe时,我们常常需要依据应用场景,需要将原来一条record拆分为多行(字段数增加1个,record增加),或者在一个record中根据已有字段拆分为多列(仍是1个record,字段数增加)这里还有另外一个问题,如果我们原始数据并没规律的以@分割的固定格式字段,或者原始数据中并没有事先准备好的array格式的字段,如何生成呢?这里个functions.explode和hive中的explode作用类似,可参考。中的explode使用。udf的使用,可以参见。......
概率题 —— 某公路1小时有车概率为0.96 某段公路上1小时有车通过的概率是0.96,半小时有车通过的概率是多少?P(1小时有车)= 1 - P(1小时没车)= 1 - p(前半小时没车) * P(后半小时没车)= 1 - P(半小时没车) * P(半小时没车)= 0.96那么可以计算出P(半小时没车) = 1−0.96\sqrt{1 - 0.96}1−0.96 = 0.2继而得到:P(半小时有车)= 1 - P(半小时没车)= 1 - 0.2= 0.8在题干以及解答答案的过程,其实都有个默认的假设:假设任意1小时/半小时有车
动态规划--跳跃问题 给出一个非负整数数组,你最初在数组第一个元素的位置数组中的元素代表你在这个位置可以跳跃的最大长度判断你是否能到达数组最后一个元素的位置例如A =[2,3,1,1,4], 返回 true.A =[3,2,1,0,4], 返回 false.A =[3,4,1,0,4], 返回 true.有了记录数组之后,要解决的就剩下,如何计算当前位置可以到的最原位置。分析完之后可动手写代码了...