3.3 不能向量化

本文探讨了R语言中向量化的重要性及其局限性,并提供了优化循环的实用技巧。文章对比了几种不同方法实现矩阵列求和的效果,包括使用apply()函数、colSums()函数及矩阵数乘的方法。
摘要由CSDN通过智能技术生成

3.3 不能向量化

有一些操作是不能被向量化的.比如,如果当前迭代建立在上一次迭代的结果上,这样的情况下向量化没有用武之地.(但是一些情况被filter(),cumsum()掩盖了,等等.)

如果你确实需要使用一个循环,那就让它尽可能简洁:

  • 尽可能将更多地操作放在循环之外.例如:如果一个相同或者相似的的序列在每次循环都会被创建,那就在循环开始前首先创建它并且重复使用.创建一个序列是非常快速的,但是如果创建成千上万次的话那就是一笔昂贵的时间开销了.

  • 尽可能将循环的次数变少.如果你在一个因素的元素层面进行迭代或者在这个因素的级别层面进行迭代之间可以选择的话,那就在它的级别层面进行迭代,几乎可以肯定的是,这样更好.

下面的代码返回矩阵的每一列元素之和(假设列的数量是正数):

sumxcol <- numeric(ncol(x))  
for(i in 1:ncol(x)) sumxcol[i] <- sum(x[,i]) 

一个更普遍的方式肯能是这样的:

sumxcol <- apply(x, 2, sum)

除了这种常用的方法外,下面的代码是在R代码中没有包含循环的做此类操作的特殊的函数:

sumxcol <- colSums(x)    

当然还有函数rowSums(),colMeans(),rowMeans().

另外一个方式是:

# %*%为求矩阵内积  
sumxcol <- rep(1, nrow(x)) %*% x

这种方法用了矩阵的数乘,稍微动一下脑筋很多问题就会被蹂躏成矩阵数乘的形式.这确实是一个有效的替代方法.

### 关于Embedding向量化模型 #### 3.1 定义与概述 Embedding是一种将离散对象映射到连续向量空间的技术,在自然语言处理领域中,Text Embedding特指将文本数据转化为数值形式以便计算机理解和处理的过程[^2]。 #### 3.2 工作原理 该过程通常涉及两个主要阶段: - **编码**:通过特定算法(如词袋模型或神经网络),原始文本被解析并转换成固定长度的实数向量。对于单个词语而言,这被称为词嵌入;而对于整个句子甚至文档,则称为句/文档嵌入。 - **解码**:当需要从向量恢复原意时,可以采用逆变换或其他近似手段来重建语义信息。不过实际应用更多关注的是如何直接利用这些低维稠密表示完成各类NLP任务,而较少涉及到完全还原初始字符串的情况。 #### 3.3 实现方式 实现Text Embedding的方式多种多样,主要包括但不限于以下几种方法: - **基于上下文的语言模型** - 利用预训练好的大型Transformer架构(例如BERT)提取深层次语义表征; - **浅层神经网络结构** - Word2Vec、GloVe等工具能够高效计算单词间的相似度关系,并形成高质量的分布式表达[^3]。 ```python import torch from transformers import BertTokenizer, BertModel tokenizer = BertTokenizer.from_pretrained(&#39;bert-base-uncased&#39;) model = BertModel.from_pretrained(&#39;bert-base-uncased&#39;) text = "Here is some text to encode" encoded_input = tokenizer(text, return_tensors=&#39;pt&#39;) output = model(**encoded_input) last_hidden_states = output.last_hidden_state print(last_hidden_states) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值