报文、报文段、分组、包、数据报、帧、数据流的概念区别

1.报文(message)
我们将位于应用层的信息分组称为报文。报文是网络中交换与传输的数据单元,也是网络传输的单元。报文包含了将要发送的完整的数据信息,其长短不需一致。报文在传输过程中会不断地封装成分组、包、帧来传输,封装的方式就是添加一些控制信息组成的首部,那些就是报文头。

2.报文段(segment)

通常是指起始点和目的地都是传输层的信息单元。

3.分组/包(packet)
分组是在网络中传输的二进制格式的单元,为了提供通信性能和可靠性,每个用户发送的数据会被分成多个更小的部分。在每个部分的前面加上一些必要的控制信息组成的首部,有时也会加上尾部,就构成了一个分组。它的起始和目的地是网络层

4.数据报(datagram)
面向无连接的数据传输,其工作过程类似于报文交换。采用数据报方式传输时,被传输的分组称为数据报。通常是指起始点和目的地都使用无连接网络服务的网络层的信息单元。(指IP数据报)

5.帧(frame)
帧是数据链路层的传输单元。它将上层传入的数据添加一个头部和尾部,组成了帧。它的起始点和目的点都是数据链路层。

6.数据单元(data unit)

指许多信息单元。常用的数据单元有服务数据单元(SDU)、协议数据单元(PDU)。

SDU是在同一机器上的两层之间传送信息。PDU是发送机器上每层的信息发送到接收机器上的相应层(同等层间交流用的)。

应用层——消息

传输层——报文段(segment)/数据报(datagram) (注:TCP叫TCP报文段,UDP叫UDP数据报,也有人叫UDP段)

网络层——分组、数据包(packet)

链路层——帧(frame)

物理层——P-PDU(bit)

其实,segment,datagram,packet,frame是存在于同条记录中的,是基于所在协议层不同而取了不同的名字。我们可以用一个形象的例子对数据包的概念加以说明:我们在邮局邮寄产品时,虽然产品本身带有自己的包装盒,但是在邮寄的时候只用产品原包装盒来包装显然是不行的。必须把内装产品的包装盒放到一个邮局指定的专用纸箱里,这样才能够邮寄。这里,产品包装盒相当于数据包,里面放着的产品相当于可用的数据,而专用纸箱就相当于帧,且一个帧中通常只有一个数据包。
注:Datagram: This is used in 2 layers. If the network protocol is IP, the unit of data is called Datagram. At transport layer, if protocol is UDP, we use datagram there as well. Hence, we differentiate them as UDP DatagramIP Datagram. (参考链接:Definition of Network Units: Fragment, Segment, Packet, Frame, Datagram)

TCP数据流(TCP stream)

Wireshark中是这么定义的:相同四元组(源地址,源端口,目的地址,目的端口)的包就为一条TCP流,即一条流有很多个包。

 [IP address A, TCP port A, IP address B, TCP port B]

All the packets for the same tcp.stream value should have the same values for these fields (though the src/dest will be switched for A->B and B->A packets).

the stream index is an internal Wireshark mapping to: [IP address A, TCP port A, IP address B, TCP port B]

All the packets for the same tcp.stream value should have the same values for these fields (though the src/dest will be switched for A->B and B->A packets)

see the Statistics/Conversations/TCP tab in Wireshark to show a summary of these streams.

以下用Wireshark实际抓包说明一下:

一个包就是一行记录,可看出是从No.1开始计数的。

点击Follow->TCP Stream可查看该包所属的流:

可看出wireshark中流是从0开始计数的,这个流序号没什么意义,只是为了唯一标识一条流(Stream indexes are Wireshark-internal. It just uses a number to uniquely identify a TCP stream.),该流有3个客户端包,40个服务端包,最左边的packet 2 表示鼠标点击的这个包在全部包序列中的序号。

点击Statistics->Conversations

(注:我的ipv4地址是公网ip,所以做了马赛克处理,ipv6是临时ip就无所谓了。)

可看到:TCP流有24条,UDP流有26条。IPv4流有19条,IPv6流有11条,为什么IPv4+IPv6流总数小于TCP+UDP流呢?

因为IP流没有端口,只考虑相同二元组(源ip,目的ip):

参考链接:https://stackoverflow.com/questions/6076897/follow-tcp-stream-where-does-field-stream-index-come-from

### 检索增强生成 RAG 技术原理 检索增强生成(RAG)是一种融合了检索技术和生成模型的方法,旨在通过结合外部知识库中的信息来改进自然语言处理任务的效果。具体而言,在面对特定查询时,系统会先利用检索模块从大量文档或其他形式的数据集中提取最相关的片段或条目;随后这些被选中的资料作为附加输入提供给生成组件,帮助其构建更加精准且富含背景支持的回答。 #### 工作流程概述 1. **检索阶段**:当接收到用户提出的请求后,RAG架构内的搜索引擎负责查找与之匹配度最高的若干候选答案来源。此过程可能涉及全文搜索、关键词定位或是更复杂的语义相似度计算等方式[^3]。 2. **生成阶段**:紧接着上述操作所得的结果会被传递至预训练的语言模型那里。此时后者不仅要理解原始问题本身所表达的意思,还需充分吸收由前者所提供的额外素材,并据此产出既贴合事实又具备良好流畅性的最终回复[^2]。 为了确保整个系统的高效运作以及输出质量,还需要特别关注以下几个方面: - 对于检索部分来说,采用先进的算法设计至关重要。这括但不限于考虑如何衡量不同文本间的关联程度、怎样快速锁定目标范围等问题。实践中往往倾向于运用诸如BM25、TF-IDF这样的经典方案或者是基于深度学习框架下的新兴手段如BERT等来进行优化配置[^4]。 - 针对生成环节,则强调要让模型学会有效整合多源异构的知识表示形式——即能够把来自结构化表格记录、半结构性网页内容乃至纯叙述性描述等各种类型的有用资讯无缝衔接到一起,从而实现高质量的对话交互体验[^1]。 ```python from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration tokenizer = RagTokenizer.from_pretrained("facebook/rag-token-nq") retriever = RagRetriever.from_pretrained("facebook/rag-token-nq", index_name="exact", use_dummy_dataset=True) model = RagSequenceForGeneration.from_pretrained("facebook/rag-token-nq") input_dict = tokenizer.prepare_seq2seq_batch( "What is the capital of France?", return_tensors="pt" ) outputs = model.generate(input_ids=input_dict["input_ids"], context_input_ids=retriever(contexts=["Paris"])) print(tokenizer.batch_decode(outputs, skip_special_tokens=True)) ```
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值