- 博客(9)
- 收藏
- 关注
转载 陕西移动网上营业厅验证码识别方案
// 转载请注明出处 鲲鹏数据 http://www.site-digger.com 陕西移动网厅:http://www.sn.10086.cn/ 验证码生成链接:https://sn.ac.10086.cn/SSO/servlet/CreateImage 验证码示例: 该...
2015-06-29 15:42:00
920
转载 鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息
近日博客园和谷奥都报道了有国外安全人士“轻松获取 3500 万个 Google Profile 信息”的消息。 博客园:http://news.cnblogs.com/n/102252/ 谷奥:http://www.guao.hk/posts/1-database-containin...
2015-06-29 15:19:00
121
转载 鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息
近日博客园和谷奥都报道了有国外安全人士“轻松获取 3500 万个 Google Profile 信息”的消息。 博客园:http://news.cnblogs.com/n/102252/ 谷奥:http://www.guao.hk/posts/1-database-containin...
2015-06-29 14:51:00
110
转载 如何使抓取的HTML规范化
在数据采集时,处理不规范的HTML页面是件令人头疼的事。因为不规范的HTML页面往往会引起xpath解析失败,造成得不到正确的数据。 了解Firebug的人都知道,它的HTML视图下有一个巧妙的功能,能够自动修复不规范的HTML,以规范的形式展现。 例如,如下的一个不规范的HTML页面: ...
2015-06-26 17:50:00
175
转载 示例项目-京东商城图书分类排行榜抓取
项目需求: 客户需要一数据采集程序定时抓取京东商城图书分类的排行榜数据(页面地址:http://www.360buy.com/booktop-1-2-3258-1.html)存入CSV文件,缩略图下载存入本地。 如上图所示,需要抓取所有图书分类下的Top100数据,每个书籍需要抓...
2015-06-26 17:38:00
317
转载 如何处理Cookie验证
在做Web数据抓取时,有时会遇到一些页面进行了Cookie验证,爬虫拿不到正确的页面。 在开始之前,先介绍一个利器:火狐的抓包插件-Live HTTP headers 如何安装Live HTTP headers(假设你已经安装Firefox了)? 火狐工具栏:工具,附加组件,获取附...
2015-06-26 17:19:00
607
转载 如何抓取JS动态输出(非ajax)的电话号码
很多网站为了防止用户的隐私信息(电话、手机、邮箱等)被爬虫抓取,对这些信息作了特殊处理。例如,采用JS输出、采用Ajax动态加载、以图片的形式显示等等。 其中最为常见的就是采用JS输出,这种方法实现的成本最低,同样也最好被抓取。 例如这个页面: http://www.trip...
2015-06-26 17:10:00
154
转载 Web数据采集(抓取)介绍
什么是Web数据采集?Web数据采集(Webscraping,也叫Web数据抓取)指的是从网站上提取信息的一种计算机软件技术。Web数据抓取程序模拟浏览器的行为,能将可以在浏览器上显示的任何数据提取出来,因此也称为屏幕抓取(Screenscraping)。Web数据抓取的最终目的是将非结构化的...
2015-06-26 16:43:00
1529
转载 如何在Windows环境下运行Python脚本
Windows下运行Python脚本最简单的方法就是安装ActivePython。 ActivePython的安装: ActivePython 的官方下载地址是: http://www.activestate.com/activepython/downloads 建议下载安装V2...
2015-06-26 16:12:00
552
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人