城市要素库时空分析项目启动说明

有了解我们团队的朋友应该知道,集搜客GooSeeker专注于网络爬虫软件开发领域已超过10年,而在过去的两年里,集搜客团队内部组建了一个特殊小组,专门探索与城市相关的数据整理和数据应用价值,而且秉承开放的原则,作为公共知识,让大家共享。 为什么启动这个项目呢?这个项目是智慧时空基础设施建设项目的...

2018-03-07 15:11:01

阅读数 85

评论数 0

深圳市咨询投诉分析

自2008年5月1日《中华人民共和国政府信息公开条例》开始施行以来,人民群众对于政府相关工作的知情权、参与权、表达权、监督权都有了更好的保障。同时随着新媒体时代的到来,从中央到地方各区域政府也纷纷开始加强网站管理,打造新媒体传播平台。使人民群众与政府之间的沟通更便利,政务互动更及时,向着政务信息数...

2017-07-12 16:20:52

阅读数 249

评论数 0

在Python3.5下安装和测试Scrapy爬网站

Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。

2016-10-28 10:10:30

阅读数 7189

评论数 1

快速制作规则及获取规则提取器API

前面文章的测试案例都用到了集搜客Gooseeker提供的规则提取器,在网页抓取工作中,调试正则表达式或者XPath都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。

2016-10-28 10:00:01

阅读数 1548

评论数 0

为采集动态网页安装和测试Python Selenium库

上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。

2016-10-25 11:44:29

阅读数 591

评论数 0

为编写网络爬虫程序安装Python3.5

为编写网络爬虫程序安装Python3.5。

2016-10-20 11:30:35

阅读数 2483

评论数 2

【04】基础:将采集结果转成Excel

前面的教程说了,数据抓取完毕之后,数据以xml格式的形式存储在本地文件夹中。下面简单地说一下如何将保存在本地的XML文件转成Excel格式

2016-09-22 17:13:41

阅读数 767

评论数 0

【03】基础:同种网页结构套用采集规则

爬虫软件安装经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了。如果要采集其他博主主页的微博,是要重新做过规则吗?非也~

2016-09-22 17:04:05

阅读数 671

评论数 0

【02】基础:单页采集(以微博博主主页采集为例)

请先安装爬虫软件。爬虫软件安装前言今天讲讲微博博主主页的采集。 目标是采集博主名称、微博内容、发博日期、微博内容、转发数、评论数和点赞数。

2016-09-09 12:07:09

阅读数 673

评论数 0

【01】基础:集搜客爬虫软件安装

前言漫漫网页数据大海洋,有一种数据搬运工的生物存在,他可能是数据分析师、也可能是爬虫工程师、也可能是业务员…等等。

2016-09-09 11:51:49

阅读数 1196

评论数 0

【00】why集搜客网络爬虫?

与各种大企业相比,大数据对于没有数据资源的个体而言是奢侈品。然而在“互联网思维”、“互联网+”引领下,我们应当勇于实践和颠覆传统,将数据平民化。

2016-09-09 11:44:48

阅读数 562

评论数 0

Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。这个项目推出以后受到很大关注,因为开放源码,大家可以在现成源码基础上进一步开发。

2016-08-05 11:28:51

阅读数 505

评论数 0

Python爬虫实战(4):豆瓣小组话题数据采集—动态网页

注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。本篇是针对动态网页的数据采集编程实战。

2016-07-15 10:35:31

阅读数 1579

评论数 3

Python爬虫实战(3):安居客房产经纪人信息采集

本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。

2016-07-11 11:01:18

阅读数 3076

评论数 1

Python信息采集器使用轻量级关系型数据库SQLite

Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。

2016-07-07 10:13:59

阅读数 1101

评论数 0

Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容

最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。

2016-07-06 11:48:22

阅读数 5795

评论数 0

让Scrapy的Spider更通用

《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去?

2016-07-01 10:32:11

阅读数 2843

评论数 0

API例子:用Python驱动Firefox采集网页数据

本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据。

2016-06-29 11:51:34

阅读数 1535

评论数 0

API例子:用Java/JavaScript下载内容提取器

本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序。

2016-06-24 11:56:55

阅读数 691

评论数 0

Python即时网络爬虫:API说明

通过这个API接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。

2016-06-22 10:37:39

阅读数 2920

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭