题目介绍
- 题目链接: https://codejam.withgoogle.com/codejam/contest/11304486/dashboard#s=p1
- 题目大意:二维平面上有N个点,每个点的坐标为(Xi, Yi),每个点的权重为Wi,找到一个中心点(X, Y),使得max(|X-Xi|, |Y-Yi|)*Wi的和最小。N最大10000。
相关知识
先介绍一些概念性的东西(机器学习的东西不是很懂,如有错误,欢迎指出,也请见谅):
- 切比雪夫距离、曼哈顿距离等概念这里面讲解的很清楚,附上链接: http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html
- 机器学习中常用这些距离公式估算不同样本之间的相似性,可以依此找到聚类质心点,进行聚类。之前在师兄的论文中也看到,使用闵氏距离估算某一个特征在正负样本上的区分度,距离值越大,表明区分度越好,特征越重要。
- 但是在实际问题中,很多样本不是单纯地距离关系,也就不能只依据距离大小进行聚类,比如本题中每个点还有权重的影响。于是,才理解本题设计的初衷:要求使用切比雪夫距离公式写一个聚类算法,找到聚类的质心
切比雪夫距离具有这样一种性质:
- 对于平面中原坐标系中两点间的 Chebyshev 距离,是将坐标轴顺(逆)时针旋转45度并将所有点的坐标值放大sqrt(2)倍所得到的新坐标系中的Manhattan距离的二分之一。通过画图可以发现,在切比雪夫坐标系下的点A(x,y),假设x>y,在曼哈顿坐标系下对应坐标为((x+y)/sqrt(2), (x-y)/sqrt(2)),则在原坐标系下点O(0,0)到A点的切比雪夫距离等于x,等于旋转后的坐标扩大sqrt(2)倍后的曼哈顿距离的二分之一,即坐标为((x+y)/2, (x-y)/2)到O点的曼哈顿距离。(刚手画了一个图,太丑了,就不放上了,稍后补上)
- 相关链接: https://zh.wikipedia.org/wiki/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E8%B7%9D%E7%A6%BB
曼哈顿距离和切比雪夫距离的两个基础题目
- 相关题目:HDU 4311为典型的曼哈顿距离题目,HDU 4312则求切比雪夫距离,建议可以先拿这两个比较直观的题目练练手。此类题目有两种解法。因为两个题目的解题方法大同小异,只是4312需要将坐标转化一下,然后便可以完全按照4311的做法进行求解,这里以4311为例,题意为在n个点钟中选择某一个点(X,Y),使得到其他所有点的曼哈顿距离和最小,即sigma(|X-Xi|+|Y-Yi|)最小:
http://acm.hdu.edu.cn/showproblem.php?pid=4311
http://acm.hdu.edu.cn/showproblem.php?pid=4312 - 解法一:我们可以发现在曼哈顿距离中,X轴方向的距离和Y轴方向的距离无关,且相互没有影响,故可以单独计算。即sigma(|X-Xi|+|Y-Yi|) = sigma(|X-Xi|) + sigma(|Y-Yi|),据此我们可以先按照x排序,计算以每个x值为中心时X轴方向上的距离和,然后按照y排序,计算以每个y值为中心时Y轴方向上的距离和。
– 复杂度分析:排序的时间复杂度为O(nlogn)。枚举n个点,暴力计算以每个点为中心时的距离和为O(n^2),在这一步我们可以使用前缀和的方式将时间优化到O(n),故总时间复杂度为O(nlogn)。
– 前缀和公式:稍微推算一下就会发现,X轴方向上排序后以第j个点作为中心点的距离和sumX[j] = sumX[j-1] + (2*j - n) * (X[j] - X[j-1]),Y轴方向上同理。
– HDU 4311代码:
- 相关题目:HDU 4311为典型的曼哈顿距离题目,HDU 4312则求切比雪夫距离,建议可以先拿这两个比较直观的题目练练手。此类题目有两种解法。因为两个题目的解题方法大同小异,只是4312需要将坐标转化一下,然后便可以完全按照4311的做法进行求解,这里以4311为例,题意为在n个点钟中选择某一个点(X,Y),使得到其他所有点的曼哈顿距离和最小,即sigma(|X-Xi|+|Y-Yi|)最小:
#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
const int N = 100010;
const ll INF = LLONG_MAX;
struct Node {
int x;
int y;
int id;
}node[N];
bool CmpX(Node a, Node b) {
return a.x < b.x;
}
bool CmpY(Node a, Node b) {
return a.y < b.y;
}
ll sumX[N];
ll sumY[N];
int main() {
int t;
cin >> t;
while(t--) {
int n;
cin >> n;
for(int i = 0; i< n; i++) {
cin>> node[i].x >> node[i].y;
node[i].id = i;
}
sort(node, node + n, CmpX);
memset(sumX, 0, sizeof(sumX));
for(int i = 1; i< n; i++) {
sumX[node[0].id] += (node[i].x-node[0].x);
}
for(int i = 1; i < n; i++) {
sumX[node[i].id] = sumX[node[i-1].id] + (ll)(2*i-n) * (node[i].x - node[i-1].x);
}
sort(node, node + n, CmpY);
memset(sumY, 0, sizeof(sumY));
for(int i = 1; i< n; i++) {
sumY[node[0].id] += (node[i].y-node[0].y);
}
for(int i = 1; i < n; i++) {
sumY[node[i].id] = sumY[node[i-1].id] + (ll)(2*i-n) * (node[i].y - node[i-1].y);
}
ll ans = INF;
for(int i = 0; i< n; ++i) {
// cout<< sumX[i] << " "<<sumY[i]<<endl;
ans = min(ans, sumX[i]+sumY[i]);
}
cout<<ans<<endl;
}
return 0;
}
– HDU 4312代码:
#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
const int N = 100010;
const ll INF = LLONG_MAX;
struct Node {
ll x;
ll y;
ll id;
Node(int a=0, int b=0, int id = 0):x(a), y(b), id(id){}
}node[N];
bool CmpX(Node a, Node b) {
return a.x < b.x;
}
bool CmpY(Node a, Node b) {
return a.y < b.y;
}
ll sumX[N];
ll sumY[N];
int main() {
int t;
cin >> t;
while(t--) {
int n;
cin >> n;
int x, y;
for(int i = 0; i< n; i++) {
//cin>> node[i].x >> node[i].y;
//node[i].id = i;
cin>>x>>y;
node[i] = Node(x-y, x+y, i);
}
sort(node, node + n, CmpX);
memset(sumX, 0, sizeof(sumX));
for(int i = 1; i< n; i++) {
sumX[node[0].id] += (node[i].x-node[0].x);
}
for(int i = 1; i < n; i++) {
sumX[node[i].id] = sumX[node[i-1].id] + (ll)(2*i-n) * (node[i].x - node[i-1].x);
}
sort(node, node + n, CmpY);
memset(sumY, 0, sizeof(sumY));
for(int i = 1; i< n; i++) {
sumY[node[0].id] += (node[i].y-node[0].y);
}
for(int i = 1; i < n; i++) {
sumY[node[i].id] = sumY[node[i-1].id] + (ll)(2*i-n) * (node[i].y - node[i-1].y);
}
ll ans = INF;
for(int i = 0; i< n; ++i) {
// cout<< sumX[i] << " "<<sumY[i]<<endl;
ans = min(ans, sumX[i]+sumY[i]);
}
cout<<ans/2<<endl;
}
return 0;
}
–
- 解法二:二分法逐渐逼近最优解(未完待续……)
本题解题思路
本题与HDU 4312的区别在于:(1)选中的中心点可以是平面中的任一点,意味着可能不是N个点中的某一个点;(2)每个点有一个权重Wi。
**本题两种解法:
(1)解法一: 前缀和,做法同HDU 4311,但是有点小区别:我们选择最小的sumX[i]值,然后选择最小的sumY[j]值,最后选择(min(sumX[i])+min(sumY[j]))的最小值即为最终结果。而HDU 4311中的(min(sumX))最终的中心点为(X,Y)
(2)解法二:三分搜索,逼近最优解- 回顾一下本题的题意,max(|X-Xi|, |Y-Yi|)*Wi
- 二分搜索和三分搜索的区别: http://blog.csdn.net/caduca/article/details/43526375
- 二分适用于单调函数,或者导数为单调函数的函数,求导后,使用二分。三分适用于单峰函数,可以求得最值。
http://blog.csdn.net/fjsd155/article/details/6918873 二分法作为分治中最常见的方法,适用于单调函数,逼近求解某点的值。但当函数是凸性函数时,二分法就无法适用,这时三分法就可以“大显身手”~~ 在求解函数f的极大极小问题时,通常使用三分。但也可以转化为求解函数f的导数g = 0的问题,此时如果g在解所在的区间内是单调的,则可以使用二分求解。
在Kickstart Round A 2017的Problem C Jane’s Flower Shop,使用二分法求解。我没有证明出来是单调的,哪位大神如果知道,还望不吝赐教。师兄提供了另一种解法,牛顿法。P.S. 想说谷歌对数学的要求还真是挺高的,很多人即使题做出来了,也是知其然不知其所以然。当然,我连知其然还没做到,加油咯。
代码
解法一:前缀和。
#define _CRT_SECURE_NO_WARNINGS
//#include <bits/stdc++.h>
#include<iostream>
#include<algorithm>
#include<cstring>
#include<ctime>
using namespace std;
const int N = 50010;
double sumx[N], sumy[N];
struct Node{
double x;
double y;
double w;
int id;
Node(double x = 0.0, double y = 0.0, double w = 0.0, int id = 0) :x(x), y(y), w(w), id(id){
}
}node[N];
bool Cmpx(Node a, Node b) {
return a.x < b.x;
}
bool Cmpy(Node a, Node b) {
return a.y < b.y;
}
int main() {
freopen("B-small-practice (2).in", "r", stdin);
freopen("B-small-practice-my.out", "w", stdout);
int t;
cin >> t;
for (int k = 1; k <= t; k++) {
int n;
cin >> n;
double x, y, w;
double rightw = 0.0;
for (int j = 0; j<n; j++) {
cin >> x >> y >> w;
node[j] = Node((x - y)*0.5, (x + y) *0.5, w, j);
//cout<<node[j].x <<" " <<node[j].y<<endl;
rightw += w;
}
double righty = rightw;
sort(node, node + n, Cmpx);
for (int i = 0; i < n; i++) {
sumx[i] = 0;
sumy[i] = 0;
}
for (int i = 1; i< n; i++) {
sumx[node[0].id] = sumx[node[0].id]+ (node[i].x - node[0].x) * node[i].w;
// cout<<sumx[node[0].id]<<endl;
}
//cout<<sumx[node[0].id]<<endl;
double leftw = 0.0;
double temp = DBL_MAX;
for (int i = 1; i < n; i++) {
leftw += node[i - 1].w;
rightw -= node[i - 1].w;
sumx[node[i].id] = sumx[node[i - 1].id] + leftw * (node[i].x - node[i - 1].x) - rightw * (node[i].x - node[i - 1].x);
//cout<<sumx[node[i].id]<<" ";
temp = min(temp, sumx[node[i].id]);
}
//cout<<endl;
sort(node, node + n, Cmpy);
//memset(sumy, 0.0000, sizeof(sumy));
for (int i = 1; i< n; i++) {
sumy[node[0].id] = sumy[node[0].id]+(node[i].y - node[0].y) * node[i].w;
}
double lefty = 0.0;
double tempy = DBL_MAX;
for (int i = 1; i < n; i++) {
lefty += node[i - 1].w;
righty -= node[i - 1].w;
sumy[node[i].id] = sumy[node[i - 1].id] + lefty * (node[i].y - node[i - 1].y) - righty * (node[i].y - node[i - 1].y);
tempy = min(tempy, sumy[node[i].id]);
}
/*cout << temp << " && " << tempy << endl;
double ans = sumx[0]+sumy[0];
for (int i = 0; i < n; i++) {
ans = min(ans, sumx[i] + sumy[i]);
}*/
double ans = temp + tempy;
printf("Case #%d: %.7lf\n", k, ans);
//cout << "Case #" << k << ": " << ans << endl;
}
//system("pause");
return 0;
}
解法二:将切比雪夫距离转化成曼哈顿距离,然后分别对X,Y进行三分,X方向距离和的最小值加上Y方向距离和的最小值,即为最终解。
#define _CRT_SECURE_NO_WARNINGS
#include <stdio.h>
#include <stdlib.h>
#include <algorithm>
#include <string.h>
#include <iostream>
#include <map>
#include <vector>
#include <queue>
#include <set>
#include <string>
#include <math.h>
using namespace std;
const int N = 10010;
const int LG = 100;
int n;
struct Node {
double x;
double y;
double w;
Node(double a = 0.0, double b = 0.0, double c = 0.0) :x(a), y(b), w(c){
}
}node[N];
double Calc(double p, int flag) {
double ans = 0.0;
if (flag == 1){
for (int i = 0; i< n; i++) {
ans += abs((node[i].x - p))*node[i].w;
}
}
else {
for (int i = 0; i< n; i++) {
ans += abs((node[i].y - p))*node[i].w;
}
}
return ans;
}
double Search(double l, double r, int flag) {
double ans = min(Calc(l, flag), Calc(r, flag));
for (int i = 0; i< LG; i++) {
double mid1 = (l + l + r) / 3;
double mid2 = (l + r + r) / 3;
double res1 = Calc(mid1, flag);
double res2 = Calc(mid2, flag);
if (res1 > res2) {
l = mid1;
}
else{
r = mid2;
}
ans = min(ans, min(res1, res2));
}
return ans;
}
int main() {
freopen("B-large-practice.in", "r", stdin);
freopen("B-large-practice-my.out", "w", stdout);
int t;
cin >> t;
for (int i = 1; i <= t; i++) {
cin >> n;
double x, y, w;
double minx = DBL_MAX;
double maxx = 0.0;
double miny = DBL_MAX;
double maxy = 0.0;
for (int j = 0; j < n; j++) {
cin >> x >> y >> w;
node[j] = Node((x + y) / 2, (x - y) / 2, w);
minx = min(minx, node[j].x);
miny = min(miny, node[j].y);
maxx = max(maxx, node[j].x);
maxy = max(maxy, node[j].y);
}
double result = Search(minx, maxx, 1) + Search(miny, maxy, 0);
//cout<<"Case #"<<i<<": " <<result<<endl;
printf("Case #%d: %.6lf\n", i, result);
}
return 0;
}