近日博客园和谷奥都报道了有国外安全人士“轻松获取 3500 万个 Google Profile 信息”的消息。
博客园:http://news.cnblogs.com/n/102252/
谷奥:http://www.guao.hk/posts/1-database-containing-35-000-000-google-profiles.html
文章描述:阿姆斯特丹大学的学生 Matthijs R. Koot在一个月的时间里,用同一个连接(http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml),下载了全部 35513445 个 Google profile。
鲲鹏数据在第一时间对该消息进行了证实。
通过profiles-sitemap.xml索引文件确实可以获取到大量Google Profile的链接。
例如:
https://profiles.google.com/117135902571938793602
https://profiles.google.com/112006952710949332145
https://profiles.google.com/105382462492606983441
https://profiles.google.com/109299750146769054739
https://profiles.google.com/104555562341640123846
由于这些Profile信息本身是开放的,因此可以被任何人访问(国内被墙)。
这些Profiles真有那么大的价值?
鲲鹏数据在24小时内利用该索引下载了其中的140条数据,其中大部分Profile仅有用户名信息,邮箱数量仅有32158条(估计总共邮箱数100万)。文章中夸大了数据的价值。
附:140万数据下载(仅含用户名、邮箱、链接三字段)。
http://www.everbox.com/f/hJgx3oKYWjDGEOEdVldXJJD8MC
关于鲲鹏数据
鲲鹏数据从2010年开始专注于Web数据抓取领域。致力于为广大中国客户提供准确、快捷的Web数据采集相关服务。
您只需告诉我们您所要搜索的数据是什么,您要取得的是什么,你想要的数据是哪种格式,我们将为您做所有的工作,并直接把数据发送给您。数据的格式可以是CSV、JSON、XML、ACCESS、MSSQL、MySQL等等。 我们也可以定制针对您的目标网站的抽取软件,这样您就可以在您的电脑上随时运行了。
Email:service@site-digger.com
特别说明:该文章为鲲鹏数据原创文章 ,你除了可以发表评论外,还可以转载到你的网站或博客,但是请保留源地址,谢谢!!(尊重他人劳动,你我共同努力)