停止过滤搜索结果符合 Google 的商业利益

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/YidingHe/article/details/5410044

是的,我相信光看标题你就基本上明白我要说的了。Google 的商业利益在哪里?很简单:人们使用互联网越多,Google 赚的钱就越多。

Google 运营的几十种在线服务(搜索引擎是其中一种),不论是种类数量还是地域覆盖,都是无可比拟的。所以,当在多个国家遭遇网络审查的时候,是遵守审查还是拒 绝,是一个必须回答的问题。Google 选择了抵制网络审查,即使不进入该地区的市场。这是符合他的商业利益的。

首先,不进入该市场,那里的人们就不会用 Google 产品了吗?互联网没有国界,人们照样会给 Google 带来流量。所以退出市场的 “损失” 并不像某些人说的那样大。

其次,如果向网络审查低头,就意味着去掉有价值的搜索结果,这对 Google 来说是一种间接伤害。因为如果用户认为 Google 不能提供他想要的东西,那他的使用次数就会减少。就 Google 当前在世界上的影响力而言,Google 有实力大声抵制网络审查,这样做的好处是显而易见的,能带来长远的利益。

再次,网络审查本身是不透明的。《审查机器》 对此有深刻描述。人人网有一个叫 “艾未未” 的用户,咱不管他是不是本人,但这个用户什么都没做,这个帐号就被封掉了。多么有戏剧性。我们的网站都是活得胆战心惊,包括我们论坛。Google 愿意遵守中国的 “相关法律政策”,但这些法律和政策又是不存在的,你教他怎么遵守呢?

那么 Google 是否对搜索结果不作任何过滤呢?不是。Google 有 SafeSearch Filtering 功能,如果你觉得黄色内容令你反感,你可以打开它。从商业的角度看,这还是符合 Google 的利益的。

所以 Google 并不像某些人说的,不遵守商人的本分,其实它的商业眼光是很长远的,某些人应该学习。

展开阅读全文

怎样抓取Google搜索结果

05-28

为什么通过正则表达式分析google的搜索结果页面代码来抓取结果的标题和链接不成功,而百度的却能成功?rnrnpublic class SaveURLrn rn public static String savepath_SaveURL="d:\\";//默认路径为D盘根目录rn static String title=null;rn static String link=null;rn static String localFile=null;//保存为本地文件后的路径rn static String res=null;rn rn public static void go() rn //String url= "http://www.baidu.com/s?wd=accenture&rn=10";rn String url="http://www.google.com/search?hl=en&newwindow=1&q=hello&start=0&sa=N&num=30";rn String content = getPage(url);//得到url所对应的网页的内容rn rn rn// 对应百度 等的正则表达式rn// 为什么快照的链接没有被下载下来?rn rn //String reg = "(.*?).*? .*?"+rn //"";rnrn //Google对应的正则式rn String reg = " "+"(.*?)";rn Pattern p = Pattern.compile(reg,Pattern.CASE_INSENSITIVE | Pattern.DOTALL);rn Matcher m = p.matcher(content);rn rn int i = 1;rn rn while(m.find())rn rn title=m.group(2).replaceAll("<.*?>", "");//正则表达式rn link=m.group(1);rn rn System.out.println("----------------------------------------------");rn System.out.println("第"+i+"个标题:"+title);rn System.out.println("第"+i+"个链接:"+link); rn rn i++;rn //end of whilernrn rn rn public static String getPage(String page) rn try rn rn URL url = new URL(page);rn HttpURLConnection con = (HttpURLConnection) url.openConnection();rn rn// 以下是修正Server returned HTTP response code: 403 for URL的代码rn// 通常是因为服务器的安全设置不接受Java程序作为客户端访问,解决方案是设置客户端的User Agentrn con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0;Windows NT; DigExt)");rn rn BufferedReader reader = new BufferedReader(new InputStreamReader(rn con.getInputStream()));rn StringBuilder b = new StringBuilder();rn String line;rn while ((line = reader.readLine()) != null) rn b.append(line);rn b.append("\r\n");rn rn return b.toString();rn catch (FileNotFoundException ex) rn System.out.println("NOT FOUND:" + page);rn return null;rn catch (ConnectException ex) rn System.out.println("Timeout:" + page);rn return null;rn catch (Exception ex) rn ex.printStackTrace();rn return null;rn rn rn rn public static void main(String[] args)rn go();rn rnrnrnrnrnrn如果打开google的结果目录页,查看源代码的结构,是和百度的差别不大啊,就是google的每个结果都是放在一个 中 里边,而百度里边的是放在一个 标签里,为什么Google的会得不到呢?rnrn请高手帮忙解释下。rn谢谢。 论坛

没有更多推荐了,返回首页