- 博客(565)
- 资源 (36)
- 收藏
- 关注
原创 快速排序算法中的Lomuto分区
j=2, 元素 2 ≤ 4→ i=1, 交换 arr[1]和 arr[2] → 数组变为 [3, 2, 7, 5, 1, 4]。j=4, 元素 1 ≤ 4 → i=2, 交换 arr[2]和 arr[4] → 数组变为 [3, 2, 1, 5, 7, 4]。最终基准值 4位于索引 3,左子数组 [3, 2, 1]≤ 4,右子数组 [7, 5]> 4。放置基准值:交换 i+1=3和 high=5→ 数组变为 [3, 2, 1, 4, 7, 5]。
2025-04-14 15:23:07
394
原创 快速排序算法
由于所有元素均大于 2,基准被交换到索引 0,数组变为 [2,5,7,8,6]。分区后,5 < 6被保留在左侧,7 和 8 大于 6,最后交换基准到正确位置,数组变为 [2,5,6,8,7]。分区后,8 > 7 被交换到右侧,基准 7 被放到正确位置,数组变为 [2,5,6,7,8]。此时基准位置 pi=0,递归处理左半部分(空)和右半部分 [5,7,8,6]。对整个数组 [6,5,7,8,2]进行排序,low=0,high=4。三 分步说明(以数组 [6, 5, 7, 8, 2]为例)
2025-04-14 11:13:37
409
原创 两个有序序列合并算法分析
2) 交换片段:将左子数组的 arr[i..mid]与右子数组的 arr[mid+1..j] 交换(使用手摇算法)。// 合并两个有序子数组 arr[left..mid] 和 arr[mid+1..right]- **最坏情况**:每次合并需交换最大片段,时间复杂度 $O(n \log n)$。- **最佳情况**:两个子数组天然有序,时间复杂度 $O(n)$。// 手摇算法交换 arr[a..b] 和 arr[b+1..c]- **空间复杂度**:$O(1)$(原地操作)。
2025-04-11 14:09:23
70
原创 _mm_malloc解析
mm_malloc 是用于内存分配的函数,专为SIMD指令集(如SSE、AVX等)设计,确保分配的内存满足特定字节对齐要求。通过合理使用_mm_malloc,可以显著提升SIMD代码的稳定性和性能,尤其在处理图像数据、科学计算等需要批量操作的场景中效果显著。
2025-04-03 09:45:48
226
原创 四个元素最大值的simd优化
3 数据类型:本示例适用于32位整数,浮点数需改用_mm_max_ps。2 减少指令数:从4次比较减少到2次向量操作。2)第一次移位后:[2, 6, 3, 1]4)第二次移位后:[3,3, 6, 6]5) 比较结果:[6, 6, 6, 6]1)初始向量:[6, 2, 1, 3]3)比较结果:[6, 6, 3, 3]
2025-04-03 09:31:50
345
原创 #pragma omp single 解析
pragma omp single 是 OpenMP(一种用于共享内存并行编程的 API)中的一种工作共享指令,用于在并行区域内指定一个代码块仅由单个线程执行,其他线程会等待该代码块执行完毕后再继续(除非显式取消同步)。1)单线程执行:在并行区域(#pragma omp parallel)内部,标记的代码块会被任意一个可用线程执行(不固定是主线程)。2)#pragma omp single:由任意一个线程执行,且默认有隐式同步。3)独立性:single 块内的变量默认是共享的(除非显式声明为私有变量)。
2025-04-02 09:37:36
405
原创 使用OpenMP并行化优化归并排序算法
4. 最终合并:将 [4,6,7] 和 [5,9] 合并为 [4,5,6,7,9]。2)左子数组继续分解为 [6,4] 和 [7]→ 合并为 [4,6,7];4) 最终合并 [4,6,7] 和 [5,9]→ [4,5,6,7,9]。2)左子任务 [0,1](长度2)触发串行处理 → 合并为 [4,6]。-分割为左 [0,2](6,4,7)和右 [3,4]($9,5$)。1)长度 3 > 2,继续并行分解为 [0,1] 和 [2,2]。3) 右子任务 [2,2] 直接返回 → 合并为 [4,6,7]。
2025-04-02 09:31:00
847
原创 _mm_storeu_si128解析
这是Intel SSE2指令集提供的内在函数(intrinsic),用于将128位SIMD寄存器(__m128i类型)中的数据非对齐存储到内存地址。函数原型:void _mm_storeu_si128(__m128i∗ mem_addr, __m128i a)对齐存储 _mm_store_si128 更快。非对齐存储 _mm_storeu_si128 稍慢。1)不对齐存储:允许存储到任意内存地址(无需16字节对齐)2)网络协议解析(非对齐数据包处理);
2025-04-01 10:48:40
146
原创 块交换递归算法
block_swap_rotate(arr, start, end, d) 处理数组的 [start, end]区间,旋转前 d个元素到末尾。对数组 [1,2,3,4,5,7,8]旋转3位后结果为 [4,5,7,8,1,2,3]。以{1, 2, 3, 4, 5, 6,7, 8}将前3个元素移到末尾为例。1. 将数组分为前`d`个元素(块A)和剩余元素(块B);// 交换右块和左块前right_len个元素。// 交换左块和右块前left_len个元素。d = d % n;1) 交换A和B的前d个元素;
2025-04-01 10:31:20
510
原创 三次反转法(手摇算法)
1 左移k位:修改为reverse(0, k-1) → reverse(k, n-1) → reverse(0, n-1)reverse(arr, k, n-1);2 负数处理:若k<0,转换为等效的正数位移(如左移2位等价于右移3位)。2. 前2个反转 → [4,5,3,2,1]3. 后3个反转 → [4,5,1,2,3]1. 整体反转 → [5,4,3,2,1]2 前k个元素反转:反转前k个元素。
2025-03-31 12:24:05
229
原创 两个有序序列的合并-手摇算法
以数组 [1,4,7,9,2,5,6,8]为例,合并左块 [1,4,7,9]和右块 [2,5,6,8]。7 > 5,找到右块中连续比 7 小的元素(5,6)。左块:[1,4,7,9] 右块:[2,5,6,8]数组变为:[1,2,4,7,9,5,6,8]数组变为:[1,2,4,5,6,7,9,8]数组变为:[1,2,4,5,6,7,8,9]数组:[1,4,7,9,2,5,6,8]
2025-03-31 11:29:43
503
原创 std::countr_zero
std::countr_zero 是 C++20 标准引入的位操作函数,用于计算无符号整数的二进制表示中末尾零(Trailing Zeros)的数量。旧代码可继续使用 __builtin_ctz,但需自行处理 x=0 的情况。通过 std::countr_zero,C++ 提供了一种高效且安全的位操作工具,适用于从底层系统编程到算法优化的广泛场景。若 x = 0,返回 T 的位数(例如 32 对应 uint32_t)。输入为 0 时,返回类型的位数(如 8 位类型返回 8),无未定义行为。
2025-03-29 20:29:17
432
原创 归并排序算法的非递归实现
代码的关键点在于正确控制子数组的大小和合并的边界条件,确保所有元素最终被合并排序。通过临时数组合并两个有序区间$[left, mid]和[mid+1, right]。1) 合并[5,6,7,8]和[2]$→ $[2,5,6,7,8]$1) 合并[5,6]和[7,8]→ [5,6,7,8]二 算法步骤(以数组[6,5,7,8,2]$为例)1) 合并[6]和[5] → [5,6]2) 合并[7]和[8] → [7,8]3) 数组变为:[5,6,7,8,2]2) 数组变为:[5,6,7,8,2]
2025-03-29 20:15:13
434
原创 _mm_blend_ps解析
mm_blend_ps 通过立即数掩码高效混合向量元素,适用于需静态确定数据源的 SIMD 优化场景。则结果向量为 { a[0], a[1], b[2], b[3] } → {1.0, 2.0, 13.0, 14.0}1)_mm_shuffle_ps 通过掩码重排元素,功能更复杂(支持跨通道复制),但需要更多时钟周期。2)_mm_blendv_ps 使用向量掩码(非立即数),掩码可动态计算,灵活性高但效率略低。3)_mm_blend_ps 立即数掩码,编译时确定,效率更高。
2025-03-28 10:44:23
416
原创 两个有序序列合并-双指针法
每次比较 arr1[i]和 arr2[j],将较小值放入结果数组。选择更小的 0,结果变为 [0],指针 j后移。选择 1,结果变为 [0,1],指针 i 后移。选择 2,结果变为 [0,1,2],指针 i后移。2 比较 arr1[0]=1和 arr2[1]=4。arr1: [1, 2, 3, 6, 9] 指针i=0。arr2: [0, 4, 5, 7, 8] 指针j=0。1 比较 arr1[0]=1和 arr2[0]=0。3 比较 arr1[1]=2和 arr2[1]=4。
2025-03-28 10:31:16
477
原创 _mm_blendv_ps解析
mm_blendv_ps 是 Intel SSE4.1 指令集 中的一条 SIMD 指令,用于对两个单精度浮点数向量(128 位)进行条件混合操作。其核心功能是:根据掩码(mask)向量的值,从两个输入向量中选择对应的元素组合成新向量。掩码通常通过比较指令生成(如 _mm_cmplt_ps、_mm_cmpgt_ps),或手动构造(如 _mm_set1_ps(-0.0f))。避免频繁生成掩码,尽量复用。
2025-03-27 11:46:43
317
原创 合并两个有序序列—逆向双指针
逆向双指针是一种常用于处理两个有序序列的高效算法技巧,其核心思想是从序列的末尾开始遍历,避免覆盖有效数据或多次移动元素。1)合并两个有序数组(如 nums1 和 nums2,其中 nums1 尾部有预留空间)。// 处理nums2剩余元素(无需处理nums1剩余,因为它们已在正确位置)1)比较 nums1[i] 和 nums2[j],将较大值放入 nums1[k]。3)处理剩余元素:若 nums2 有剩余元素,直接复制到 nums1 头部。i 指向第一个序列有效元素末尾(如 nums1 的最后一个元素)
2025-03-27 11:39:58
1101
原创 _mm_cmpgt_epi8 和_mm_cmpgt_epi32 详解
mm_cmpgt_epi8适用于细粒度(字节级别)的有符号整数比较_mm_cmpgt_epi32,适用于大范围(32 位整数)的有符号数值比较。若 a = [100, -200, 300, 400],b = [50, -100, 300, 0],则结果为 [0xFFFFFFFF, 0x00000000, 0x00000000, 0xFFFFFFFF]。若 a = [10, -5, 3, ...],b = [5, -3, 3, ...],则结果为 [0xFF, 0x00, 0x00, ...]。
2025-03-26 09:48:37
245
原创 数组子序列冒泡比较的SIMD优化
使用_mm_loadu_si128加载每块中连续的4个整数(128位寄存器),通过_mm_cmpgt_epi32比较对应元素大小,生成掩码。用_mm_blendv_epi8根据掩码混合两个块的数据:将较大值保留在块i+1,较小值留在块i,最后将结果写回内存。若数组按16字节对齐,改用_mm_load_si128和_mm_store_si128提升加载/存储效率。依次遍历每对相邻块(块i与块i+1),若块i+1中某位置元素大于块i的对应位置元素,则交换二者。// 处理剩余不足4个的元素。
2025-03-26 09:38:59
1021
原创 _mm_blendv_epi8解析
mm_blendv_epi8是 Intel SIMD 指令集(SSE4.1 引入)中的一个函数,用于按字节(8 位)条件混合两个 128 位向量的内容。通过 _mm_blendv_epi8,开发者可以高效实现基于条件的逐字节数据选择,避免分支预测开销,提升 SIMD 代码性能。根据掩码(mask)向量的每个字节的最高位,选择两个输入向量(a和 b)对应字节的值。mask:控制混合的掩码向量(128 位,每个字节的最高位决定选择 a 或 b)。如果掩码字节的最高位为 0,则选择第一个向量 a的对应字节。
2025-03-25 16:27:48
283
原创 数组子序列比较的SIMD优化
给定数组 [6, 5, 7, 8, 2, 9],子序列间隔为3,可将其平均分为前3个和后3个元素。仅更新有效元素(前3个和后3个),忽略填充值。将前3个和后3个元素加载到两个128位向量(__m128i),填充第四个元素为0。分割数组:前半为 [6, 5, 7],后半为 [8, 2, 9]。2) 掩码混合:利用 _mm_blendv_epi8 快速选择保留的值。3) 通过SSE优化,将逐元素比较与交换转化为向量操作,提升了计算效率。结果:[6, 2, 7, 8, 5, 9]。// 根据掩码混合向量。
2025-03-25 15:55:57
818
原创 归并排序算法
4)最终合并 [5 6 7] 和 [2 8]→ [2 5 6 7 8]。3) 合并右半部分 [8] 和[2]→ 合并为 [2 8]。2)合并:将相邻有序子数组合并为一个有序数组,直到全部合并。2) 合并 [5 6] 和 [7] → [5 6 7]。[6 5 7] 和[8 2]。1)合并 [6]和 [5] → [5 6]。二、分步演示(数组[6 5 7 8 2])2)第2层分解左半部分 [6 5 7]3)第2层分解右半部分 [8 2]
2025-03-22 19:57:56
293
原创 Ciura序列
2) 后续增量可通过最后一个元素乘以2.25生成(如:701*2.25=1577,1577*2.25=3548...)。1)经验证最优的初始序列为:[1, 4, 10, 23, 57, 132, 301, 701]3)时间复杂度约为O(n^{3/2}),优于传统希尔排序的O(n^2)。3)性能优化:Ciura序列在中等规模数据(n ≤ 10^6)表现最佳。1)逆序使用序列:必须从最大间隔开始递减。
2025-03-22 19:24:39
180
原创 使用OpenMP实现希尔排序并行化
omp_set_num_threads(物理核心数/2);// 小数据使用单线程。1)分层并行:不同gap阶段顺序执行,同一gap内的子数组分组并行处理。2)数据独立性:同一gap下不同子数组间无重叠元素,天然支持并行。omp_set_num_threads(物理核心数);1)必要性:不同子数组的排序耗时差异大(元素数量不同)。3)负载均衡:动态调度解决不同子数组计算量不均的问题。// 并行区域:每个线程处理不同子数组。// 生成Ciura序列(含动态扩展)
2025-03-21 10:40:33
733
原创 希尔排序中的Hibbard序列
递推公式:每次k增加1,计算 h_{k+1}=2^{k+1}-1。while ((1 << k) - 1 < n) { // 1<<k等价于2^k。作为希尔排序的步长(间隔序列),用于将数据分为多个子序列进行插入排序。其中k从1开始递增,序列为:1, 3, 7, 15, 31, 63, …1)最坏情况:O(n^{3/2}),优于原始希尔排序的O(n^2)。起始条件:k=1,对应h_1=2^1-1=1。// 找到最大的k使得2^k -1 < n。
2025-03-21 10:02:11
384
原创 希尔排序为啥能降低时间复杂度?
最终,希尔排序在大多数实际场景中显著优于插入排序,时间复杂度可降至 O(n log n) 至 O(n^{4/3}) 之间,具体取决于间隔序列的设计。例如,Hibbard间隔保证每次排序后,元素的移动步长呈指数级缩小,有效降低总操作次数。希尔排序通过分阶段的子序列插入排序,逐步减少元素与目标位置的偏差,从而降低整体比较和移动次数。希尔排序通过引入间隔(gap)将数组分成多个子序列,逐步缩小间隔直至为1。例如,若元素需从位置51移动到位置1,在间隔为50时,一步即可到位。最坏 O(n^{3/2})。
2025-03-20 09:32:33
244
原创 希尔排序中的Pratt序列
Pratt序列是希尔排序的一种理论优化方案,其核心在于3-smooth数的数学性质。Pratt序列主要具有理论意义,证明了希尔排序在特定增量序列下可达到接近O(n log n)的效率。使用Pratt序列的希尔排序理论时间复杂度为O(n log^2 n),优于原始希尔排序的O(n^2)。Pratt序列的每个元素是满足$2^p * 3^q(p, q >= 0)的整数,并按升序排列。1, 2, 3, 4, 6, 8, 9, 12(当p <= 3, q <= 2)。2)生成的增量数量较多,导致排序趟数增加。
2025-03-20 09:21:25
255
原创 希尔排序中的Sedgewick序列
希尔排序是一种基于插入排序的改进算法,其核心思想是将原始数组分成多个子序列(按一定间隔),分别进行插入排序,随后逐步缩小间隔直至为1。使用Sedgewick序列的希尔排序,在最坏情况下的时间复杂度为O(n^{4/3}),优于其他常见间隔序列(如Hibbard序列的$O(n^{3/2})$)。在希尔排序中,先按Sedgewick公式生成足够大的间隔值,然后从最大且小于数组长度的间隔开始,逐步缩小直至间隔为1。Sedgewick提出了两种生成间隔的公式,结合了指数和多项式,生成的间隔序列具有较好的实践经验。
2025-03-19 09:47:56
223
原创 希尔排序算法时间复杂度分析
2^k-1(最坏时间复杂度O(n^{3/2}))。2)使用优化序列(如Hibbard、Sedgewick)时,性能显著提升至O(n^{3/2})或更低。, 1(最坏时 间复杂度O(n^2))。常用增量序列的平均时间复杂度约为O(n^{1.25} )到O(n^{1.5} )。数学证明当增量满足h=2^k-1时,比较次数约为O(n^{3/2})。希尔排序 O(n^{1.25} 到O(n^{1.5} ) O(n^2)1)00使用简单递减序列(如N/2)时,最坏情况为O(n^2)。
2025-03-19 09:29:39
168
原创 OpenMP Reduction解析
reduction 是 OpenMP 中用于 并行化累加操作 的指令子句,主要解决多线程环境下对共享变量的 数据竞争问题。通过合理使用 reduction 子句,可以在保证线程安全的前提下,显著提升并行程序的开发效率和运行性能。根据运算符自动初始化私有副本(如求和初始为0,乘积初始为1)。// 各线程独立初始化会导致错误。
2025-03-18 09:12:41
308
原创 希尔排序算法
希尔排序(Shell Sort)是一种基于插入排序的改进算法,通过分组插入排序逐步减少元素移动次数,提升排序效率。平均情况:O(n log n)到 O(n^{1.5}),优于直接插入排序。本例数组[6 5 7 8 2]长度为5,增量序列为:gap = 2 ->1。2 时间复杂度:最坏情况下为 O(n^2),但优于普通插入排序。排序后数组变为: [2, 5, 6,8,7]最坏情况:O(n^2)(取决于增量序列)。最终有序数组: [2,5, 6, 7, 8]插入排序后 → [2, 6, 7]
2025-03-18 08:57:54
728
原创 _mm_movemask_epi8解析
通过 _mm_movemask_epi8,开发者可以将 SIMD 并行计算结果快速压缩为标量掩码,从而简化分支处理和后续逻辑,是 SIMD 编程中的关键工具之一。_mm_movemask_epi8 是 Intel SIMD 指令集(SSE/AVX)中的一个重要函数,主要用于从 128 位向量寄存器中提取字节级别的掩码信息。AVX2 提供 _mm256_movemask_epi8,支持 256 位向量(生成 32 位掩码)。
2025-03-17 10:31:35
267
原创 插入排序程序并行化
插入排序是稳定的原地排序算法,核心思想是逐步构建有序序列。对于未排序部分的每个元素,在已排序序列中从后向前扫描,找到合适位置插入。合并过程可并行化,逐步减少块数直至整体有序。插入排序本身时间复杂度为O(n^2),并行化后加速比受限于分块数量和归并开销。块过小会导致合并开销过大,建议块大小 ≥ 1000元素。将数组分成多个子块,每个线程使用插入排序处理一块。若数据分布不均,末尾块可能较长,需特殊处理。// 步骤1:并行分块插入排序。// 步骤2:归并所有有序块。// 并行插入排序主函数。
2025-03-17 10:22:52
1293
原创 omp_set_num_threads解析
omp_set_num_threads 是 OpenMP(一种并行编程接口)中用于设置后续并行区域默认线程数的库函数。优先考虑环境变量 OMP_NUM_THREADS 或 num_threads 子句(若无需动态调整)。OpenMP 默认线程数通常由环境变量 OMP_NUM_THREADS 决定,此函数优先级更高。结合 omp_get_max_threads 实现自适应线程分配。实际线程数可能受操作系统或硬件限制。
2025-03-16 18:33:16
513
原创 #pragma omp critical解析
它的核心作用是确保同一时刻仅有一个线程执行其关联的代码块,避免多线程并发访问导致的数据竞争问题。atomic指令仅适用于单一内存位置的简单操作(如 x++, x = y),硬件级原子性,效率更高。命名的 critical区域(如 critical(mylock))允许对不同资源使用独立的锁。未命名的 critical区域默认全局同步,所有未命名的 critical区域视为同一锁。// 保证 sum 的原子更新。当多个线程需要读写共享变量时,确保操作的原子性。通过命名锁管理不同的临界资源,减少不必要的阻塞。
2025-03-16 18:24:03
228
原创 std::merge和std::inplace_merge对比分析
std::merge需要输入区间和目标区间的迭代器 , std::inplace_merge为同一容器的迭代器。std::merge需要额外存储空间(目标区间),std::inplace_merge无需额外空间。2)std::inplace_merge合并同一容器的两个连续有序子区间。// 合并到 dst,结果为 {1,2,3,4,5,6}// 合并整个区间,v 变为 {1,2,3,4,5,6}
2025-03-15 16:36:54
181
原创 std::inplace_merge解析
std::inplace_merge 是 C++ 标准库 <algorithm> 中的算法,用于将 两个已排序的相邻范围 合并为一个有序范围,且 原地操作(无需额外存储空间)。将 [first, middle) 和 [middle, last) 合并为 [first, last),保持整体有序。[first, middle) 和 [middle, last) 必须已按相同顺序(升序/降序)排序。双向迭代器(如 std::list, std::deque, std::vector)。// 合并两个有序区间。
2025-03-15 16:19:09
505
原创 插入排序算法的SIMD优化
AVX 系列:AVX/AVX2(256位寄存器)。SSE 系列:SSE/SSE2/SSE3/SSE4(128位寄存器)。// 存储到[i-2, i-1, i, i+1]位置(右移一位)// 加载[i-3, i-2, i-1, i]位置的元素。使用数组右移一位的SIMD算法来优化插入排序算法。// 从倒数第二个元素开始处理。// SSE处理:每次4个元素,从右往左。// 处理剩余元素(无法组成4个的部分)// simd批量移动元素。// 找到插入位置pos。// 将末尾元素放到首位。// 保存最后一个元素。
2025-03-14 10:07:31
455
原创 数组右移一位SIMD优化
存储:向右移动一位,存储到i-2的位置(如i=5时,存储到arr[3], arr[4], arr[5], arr[6])加载:从i-3开始加载4个元素(如i=5时,加载arr[2], arr[3], arr[4], arr[5])// 存储到[i-2, i-1, i, i+1]位置(右移一位)// 加载[i-3, i-2, i-1, i]位置的元素。2)SSE批量移动:从右向左每次加载4个元素到寄存器,存储到右侧位置。3)处理剩余元素:对无法组成4个元素的剩余部分,用普通循环处理。
2025-03-14 09:48:29
591
原创 MEMCPY与MEMMOVE的区别
在 VS2015 的 memcpy 实现中,可能调用 SSE/AVX 指令集优化的块复制操作某些情况下会自动选择复制方向(类似 memmove),但非官方保证行为。if(s < d && s + n > d) { // 检测正向复制是否会导致覆盖。// 改为从高地址向低地址复制。// 从低地址向高地址复制。memmove 允许(自动处理重叠) 检测重叠区域,智能选择复制方向。安全性 低(需手动确保安全) 高(自动处理重叠)// 插入排序元素移动(源与目标区域重叠)
2025-03-13 09:49:38
388
Qt4.8.4和Echarts5.3.3绘制图表例子
2022-09-17
echarts-5.3.3
2022-09-17
Least-squares estimation of transformation parameters between tw
2022-06-23
sqlite3.38.0
2022-03-12
C++序列化和反序列化
2022-03-10
用于服务器和客户端之间传输文件的Xftp6.rar
2021-12-04
windows Xshell6Portable_50151.zip
2021-12-04
Memory Reordering Caught in the Act
2021-10-19
WebFace260M.pdf
2021-10-12
Google Save All Resources 插件
2020-10-08
freeglut-3.0.0 - 副本.zip
2020-08-29
lfw(dataset+pairs).zip
2020-02-26
LFW数据集主要测试人脸识别的准确率
2020-02-26
cfp-dataset.zip
2020-02-26
cfppairsff.txt
2020-02-26
cfppairsfp.txt
2020-02-26
AgeDB_n.zip
2020-02-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人