Partition a set of numbers into two so that difference between their sum is minimum with equal size

Partition a set of numbers into two such that difference between their sum is minimum, and both sets have equal number of elements. 

For example: {1, 4, 9, 16} is partitioned as {1,16} and {4,9} with diff = 17-13=4. 

Does greedy work here? First sorting, and then picking smallest and largest to fall in set 1, and picking 2nd smallest and 2nd largest to fall in set 2. 

I was asked to prove which I failed :(

----------------------------------------------------------------------------------------------------

The problem is similar to knapsack problem, however, the number of knapsack is constant in this problem, so :

Observing the insanity of above posts which claim to develop a greedy O(nlogn) solution for a variation of partition problem, I was compelled to code the program. Being NP-hard by nature, the solution falls into pseudo-polynomial time algorithm with complexity O(n^2W) where n = # of elements, W = sum of elements.

//constraints: n is even
void fun (int items[], int n)
{
  int total = accumulate (items, items+n, 0) / 2;
  int maxSubsetSz = n/2 ;
	
  vector< vector<int> > T (maxSubsetSz+1, vector<int> (total+1, 0) );

  //T[i][j] is set if there exists subset of size i that sum up to j
  T[0][0] = 1;	

  for(int i = 0; i < n; i++) //consider taking i-th item 		
    for(int k = maxSubsetSz-1; k >= 0; k--) //each item must be taken once, hence loop backwards
      for(int j = 0; j <= total-items[i]; j++)  
        if ( T[k][j] && items[i]+j <= total )		      		    
          T[k+1][j+items[i]] = 1;

  for(int j = total; j >= 1; j--)
    if ( T [maxSubsetSz][j] ) {
      cout << "sum : " << j << endl; 
      break;
    }
}



### 解决方案 在 Pig 或 MapReduce 中遇到 `'operation not supported store into a partition with bucket definition'` 错误的原因通常是由于 Hive 的分桶功能未正确启用或配置不当所致。以下是详细的解决方案: #### 1. 启用 Hive 并发和支持分桶的功能 为了使分桶功能正常工作,需要确保以下参数被正确设置。这些参数可以通过 `SET` 命令临时修改当前会话的配置,或者通过编辑 `hive-site.xml` 文件永久生效。 ```sql SET hive.support.concurrency = true; -- 启用 Hive 并发支持[^1] SET hive.enforce.bucketing = true; -- 开启强制分桶功能 SET hive.exec.dynamic.partition.mode = nonstrict; -- 设置动态分区模式为非严格 ``` 如果上述参数未正确配置,则可能导致存储到带分桶定义的分区时失败。 --- #### 2. 使用正确的数据写入方式 当使用 Pig 将数据存储到带有分桶定义的分区表时,需注意以下几点: - **Pig 输出格式**:确保 Pig 的输出格式与目标 Hive 表一致。例如,如果目标表是 ORC 格式,则应指定 `-storeas orc`。 - **分桶字段映射**:确认 Pig 脚本中的字段顺序和名称与 Hive 表定义匹配。特别是分桶字段的位置必须正确。 示例 Pig 脚本如下: ```pig REGISTER /path/to/hive-pig.jar; -- 定义输入数据源 data = LOAD '/input/path' USING PigStorage('^') AS ( base_id: chararray, dt: chararray); -- 对数据进行必要的转换 transformed_data = FOREACH data GENERATE base_id, dt; -- 存储到 Hive 外部表 STORE transformed_data INTO 'hdfs://output/path' USING org.apache.hive.pig.HCatStorer('base_id=chararray', 'dt=string'); ``` 此脚本假设目标表已经创建好,并且其结构与 Pig 数据模型兼容[^3]。 --- #### 3. 检查 Metastore 和事务管理器配置 对于涉及复杂操作(如分桶和分区)的任务,还需要验证 Metastore 实例上的事务管理器和服务端参数是否正确配置。具体来说: ```sql SET hive.txn.manager = org.apache.hadoop.hive.ql.lockmgr.DbTxnManager; SET hive.compactor.initiator.on = true; SET hive.compactor.worker.threads = 1; ``` 以上参数用于控制事务管理和压缩合并行为。如果不启用这些选项,在某些情况下可能会引发类似的错误。 --- #### 4. 替代方法——绕过分桶限制 如果无法调整环境配置以支持分桶功能,可以考虑以下替代策略: - 创建一个无分桶定义的目标表; - 在加载完成后手动执行分桶逻辑(例如通过 SQL 查询重新分配数据)。 这种方法虽然牺牲了一些性能优化机会,但在受限环境中可能更为实用。 --- ### 示例代码 下面是一个完整的流程示例,展示如何从 MySQL 导入数据至 Hive 分区表并避免上述错误: ```bash # Step A: 创建外部表 CREATE EXTERNAL TABLE ods_base ( base_id STRING ) PARTITIONED BY (dt STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '^' STORED AS ORC; # Step B: 配置必要参数 SET hive.support.concurrency = true; SET hive.enforce.bucketing = true; SET hive.exec.dynamic.partition.mode = nonstrict; # Step C: 执行 Sqoop 导入命令 sqoop import \ --connect jdbc:mysql://localhost/db_name \ --username root \ --password password \ --query "SELECT id FROM table WHERE \$CONDITIONS" \ --split-by id \ --target-dir /tmp/sqoop_output \ --fields-terminated-by '^'; # Step D: 加载数据到 Hive 表 LOAD DATA INPATH '/tmp/sqoop_output/*' OVERWRITE INTO TABLE ods_base PARTITION(dt='current_date'); ``` --- ### 注意事项 尽管引入了分布式加权分位数草图算法来提高效率[^2],但对于简单的存储问题而言,通常无需额外实现此类高级技术。只需按照前述步骤逐一排查即可解决问题。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值