chengna5308-CSDN博客

转载陕西移动网上营业厅验证码识别方案

// 转载请注明出处鲲鹏数据 http://www.site-digger.com 陕西移动网厅：http://www.sn.10086.cn/ 验证码生成链接：https://sn.ac.10086.cn/SSO/servlet/CreateImage 验证码示例：该...

2015-06-29 15:42:00 920

转载鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息

近日博客园和谷奥都报道了有国外安全人士“轻松获取 3500 万个 Google Profile 信息”的消息。博客园：http://news.cnblogs.com/n/102252/ 谷奥：http://www.guao.hk/posts/1-database-containin...

2015-06-29 15:19:00 121

转载鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息

近日博客园和谷奥都报道了有国外安全人士“轻松获取 3500 万个 Google Profile 信息”的消息。博客园：http://news.cnblogs.com/n/102252/ 谷奥：http://www.guao.hk/posts/1-database-containin...

2015-06-29 14:51:00 110

转载如何使抓取的HTML规范化

在数据采集时，处理不规范的HTML页面是件令人头疼的事。因为不规范的HTML页面往往会引起xpath解析失败，造成得不到正确的数据。了解Firebug的人都知道，它的HTML视图下有一个巧妙的功能，能够自动修复不规范的HTML，以规范的形式展现。例如，如下的一个不规范的HTML页面： ...

2015-06-26 17:50:00 175

转载示例项目-京东商城图书分类排行榜抓取

项目需求：客户需要一数据采集程序定时抓取京东商城图书分类的排行榜数据（页面地址：http://www.360buy.com/booktop-1-2-3258-1.html）存入CSV文件，缩略图下载存入本地。如上图所示，需要抓取所有图书分类下的Top100数据，每个书籍需要抓...

2015-06-26 17:38:00 317

转载如何处理Cookie验证

在做Web数据抓取时，有时会遇到一些页面进行了Cookie验证，爬虫拿不到正确的页面。在开始之前，先介绍一个利器：火狐的抓包插件-Live HTTP headers 如何安装Live HTTP headers（假设你已经安装Firefox了）？火狐工具栏：工具，附加组件，获取附...

2015-06-26 17:19:00 607

转载如何抓取JS动态输出(非ajax)的电话号码

很多网站为了防止用户的隐私信息（电话、手机、邮箱等）被爬虫抓取，对这些信息作了特殊处理。例如，采用JS输出、采用Ajax动态加载、以图片的形式显示等等。其中最为常见的就是采用JS输出，这种方法实现的成本最低，同样也最好被抓取。例如这个页面： http://www.trip...

2015-06-26 17:10:00 154

转载 Web数据采集（抓取）介绍

什么是Web数据采集？Web数据采集（Webscraping，也叫Web数据抓取）指的是从网站上提取信息的一种计算机软件技术。Web数据抓取程序模拟浏览器的行为，能将可以在浏览器上显示的任何数据提取出来，因此也称为屏幕抓取（Screenscraping）。Web数据抓取的最终目的是将非结构化的...

2015-06-26 16:43:00 1529

转载如何在Windows环境下运行Python脚本

Windows下运行Python脚本最简单的方法就是安装ActivePython。 ActivePython的安装： ActivePython 的官方下载地址是： http://www.activestate.com/activepython/downloads 建议下载安装V2...

2015-06-26 16:12:00 552

转载陕西移动网上营业厅验证码识别方案

转载鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息

转载鲲鹏数据证实“轻松获取3500万个Google Profile信息”消息

转载如何使抓取的HTML规范化

转载示例项目-京东商城图书分类排行榜抓取

转载如何处理Cookie验证

转载如何抓取JS动态输出(非ajax)的电话号码

转载 Web数据采集（抓取）介绍

转载如何在Windows环境下运行Python脚本

空空如也

空空如也