MapReduce(分治算法的应用) 是 Google 大数据处理的三驾马车之一,另外两个是 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。
主要思想
分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法会层层合并得到原问题的答案。
分治算法的步骤
- 分:递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题);
- 治:将这些规模更小的子问题逐个击破;
- 合:将已解决的子问题逐层合并,最终得出原问题的解;
分治法适用的情况
- 原问题的计算复杂度随着问题的规模的增加而增加。
- 原问题能够被分解成更小的子问题。
- 子问题的结构和性质与原问题一样,并且相互独立,子问题之间不包含公共的子子问题。
- 原问题分解出的子问题的解可以合并为该问题的解。
算法应用
-
题目描述
给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 [n/2] 的元素。
你可以假设数组是非空的,并且给定的数组总是存在众数。
示例 1:
输入: [3,2,3]
输出: 3
示例 2:
输入: [2,2,1,1,1,2,2]
输出: 2
-
解题思路
-
确定切分的终止条件
直到所有的子问题都是长度为 1 的数组,停止切分。
-
准备数据,将大问题切分为小问题
递归地将原数组二分为左区间与右区间,直到最终的数组只剩下一个元素,将其返回
-
处理子问题得到子结果,并合并
-
长度为 1 的子数组中唯一的数显然是众数,直接返回即可。
-
如果它们的众数相同,那么显然这一段区间的众数是它们相同的值。
-
如果他们的众数不同,比较两个众数在整个区间内出现的次数来决定该区间的众数
-
-
【代码实现】
- 分治法
class Solution:
# 分治法
def majorityElement(self, nums):
# 【不断切分的终止条件】
if not nums:
return None
if len(nums) == 1:
return nums[0]
# 【准备数据,并将大问题拆分为小问题】
left = self.majorityElement(nums[:len(nums) // 2])
right = self.majorityElement(nums[len(nums) // 2:])
# 【处理子问题,得到子结果】
# 【对子结果进行合并 得到最终结果】
if left == right:
return left
if nums.count(left) > nums.count(right):
return left
else:
return right
- 哈希表
# 哈希表
def majorityElement2(self, nums):
dicts = {}
for i in nums:
dicts[i] = dicts.get(i, 0) + 1
return max(dicts.keys(), key=dicts.get)
-
题目描述
给定一个整数数组 nums ,找到一个具有最大和的连续子数组(子数组最少包含一个元素),返回 其最大和。
示例:
输入: [-2,1,-3,4,-1,2,1,-5,4],
输出: 6
解释: 连续子数组 [4,-1,2,1] 的和最大为6。
-
解题思路
-
确定切分的终止条件
直到所有的子问题都是长度为 1 的数组,停止切分。
-
准备数据,将大问题切分为小问题
递归地将原数组二分为左区间与右区间,直到最终的数组只剩下一个元素,将其返回
-
处理子问题得到子结果,并合并
-
将数组切分为左右区间
- 对与左区间:从右到左计算左边的最大子序和
- 对与右区间:从左到右计算右边的最大子序和
-
由于左右区间计算累加和的方向不一致,因此,左右区间直接合并相加之后就是整个区间的和
-
最终返回左区间的元素、右区间的元素、以及整个区间(相对子问题)和的最大值
-
-
【代码实现】
- 分治法
class Solution:
# 分治法
def maxSubArray(self, nums):
# 【确定不断切分的终止条件】
n = len(nums)
if n == 1:
return nums[0]
# 【准备数据,并将大问题拆分为小的问题】
left = self.maxSubArray(nums[:len(nums) // 2])
right = self.maxSubArray(nums[len(nums) // 2:])
# max_l为该数组的最左边的元素, max_r为该数组的最右边的元素
max_l = nums[len(nums) // 2 - 1]
max_r = nums[len(nums) // 2]
# 【处理小问题,得到子结果】
# 从右到左计算左边的最大子序和
temp = 0
for i in range(len(nums) // 2 - 1, -1, -1):
temp += nums[i]
max_l = max(temp, max_l)
# 从左到右计算右边的最大子序和
temp = 0
for i in range(len(nums) // 2, len(nums)):
temp += nums[i]
max_r = max(temp, max_r)
# 【对子结果进行合并 得到最终结果】
# 返回三个中的最大值
return max(left, right, max_l + max_r)
- 暴力求解法
def maxSubArray2(self, nums):
temp = nums[0]
max_ = temp
n = len(nums)
for i in range(1, n):
# 当当前序列加上此时的元素的值大于tmp的值,说明最大序列和可能出现在后续序列中,记录此时的最大值
if temp + nums[i] > nums[i]:
max_ = max(max_, temp + nums[i])
temp = temp + nums[i]
# 当tmp(当前和)小于下一个元素时,当前最长序列到此为止。以该元素为起点继续找最大子序列,
# 并记录此时的最大值
else:
max_ = max(temp, max_, temp + nums[i], nums[i])
temp = nums[i]
return max_
-
题目描述
实现 pow(x, n) ,即计算 x 的 n 次幂函数。
示例 1:
输入: 2.00000, 10
输出: 1024.00000
示例 2:
输入: 2.10000, 3
输出: 9.26100
示例 3:
输入: 2.00000, -2
输出: 0.25000
解释: 2-2 = 1/22 = 1/4 = 0.25
说明:
-100.0 < x < 100.0 n 是 32 位有符号整数,其数值范围是 $[−2^{31}, 2^{31} − 1]$ 。
-
解题思路
-
确定切分的终止条件
对n不断除以2,并更新n,直到为0,终止切分
-
准备数据,将大问题切分为小问题
对n不断除以2,更新
-
处理子问题得到子结果,并合并
- x与自身相乘更新x
- 如果n%2 ==1
- 将p乘以x之后赋值给p(初始值为1),返回p
-
最终返回p
-
【代码实现】
class Solution(object):
def myPow(self, x, n):
# 处理 n 为负数的情况
if n < 0:
x = 1 / x
n = -n
# 处理 n 为 0 的情况
if n == 0:
return 1
# 如果 n 为奇数,将其转换为偶数
if n % 2 == 1:
p = x * self.myPow(x, n - 1)
return p
# 偶数输出
return self.myPow(x * x, n / 2)