一起学习python网络爬虫
文章平均质量分 81
fullerhua
网络爬虫GooSeeker.com创始人,数据挖掘和数据获取社区经营
展开
-
Python即时网络爬虫项目启动说明
这是一个开放的项目,两年前启动了一个手机上的即时网络爬虫项目,因为是给某商业集团开发的,所以不便开放,同样的思想和方法将开放到这个项目中,而且用当前最热的python来做,希望大家能共同参与。在执行过程中,我们会开放所有资料和成果、已经遇到的坑。原创 2016-05-12 10:24:28 · 1199 阅读 · 0 评论 -
Scrapy:python3下的第一次运行测试
《Scrapy的架构初探》一文讲解了Scrapy的架构,本文就实际来安装运行一下Scrapy爬虫。本文以官网的tutorial作为例子,完整的代码可以在github上下载。原创 2016-06-16 11:46:51 · 3677 阅读 · 1 评论 -
Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。本篇是针对动态网页的数据采集编程实战。原创 2016-07-15 10:35:31 · 2954 阅读 · 4 评论 -
Python: xml转json
1,引言GooSeeker早在9年前就开始了Semantic Web领域的产品化,MS谋数台和DS打数机是其中两个产品。对web内容做结构化转换和语义处理的主要路线是 XML -> RDF -> Ontology Engineering。所以这两款产品的输出信息是XML格式的,实现第一步:结构化转换。单纯作为一个网页采集器来说,输出XML格式也有好处,这是一种标准格式,后续的数据处理可以很容易地接入原创 2016-06-20 14:17:08 · 2004 阅读 · 0 评论 -
Python信息采集器使用轻量级关系型数据库SQLite
Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。原创 2016-07-07 10:13:59 · 1303 阅读 · 0 评论 -
Python爬虫实战(1):爬取Drupal论坛帖子列表
在《Python即时网络爬虫项目: 内容提取器的定义》一文我们定义了一个通用的python网络爬虫类,期望通过这个项目节省程序员一半以上的时间。本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。原创 2016-06-06 14:16:54 · 3866 阅读 · 0 评论 -
Python即时网络爬虫:API说明
通过这个API接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。原创 2016-06-22 10:37:39 · 3530 阅读 · 0 评论 -
Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容
最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。原创 2016-07-06 11:48:22 · 6344 阅读 · 0 评论 -
Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)
在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。这个项目推出以后受到很大关注,因为开放源码,大家可以在现成源码基础上进一步开发。原创 2016-08-05 11:28:51 · 650 阅读 · 0 评论 -
为编写网络爬虫程序安装Python3.5
为编写网络爬虫程序安装Python3.5。原创 2016-10-20 11:30:35 · 2946 阅读 · 2 评论 -
为采集动态网页安装和测试Python Selenium库
上一篇《为编写网络爬虫程序安装Python3.5》中测试小例子对静态网页做了一个简单的采集程序,而动态网页因为需要动态加载js获取数据,所以使用urllib直接openurl已经不能满足采集的需求了。原创 2016-10-25 11:44:29 · 817 阅读 · 0 评论 -
快速制作规则及获取规则提取器API
前面文章的测试案例都用到了集搜客Gooseeker提供的规则提取器,在网页抓取工作中,调试正则表达式或者XPath都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。原创 2016-10-28 10:00:01 · 1996 阅读 · 1 评论 -
让Scrapy的Spider更通用
《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去?原创 2016-07-01 10:32:11 · 3086 阅读 · 0 评论 -
Python爬虫实战(3):安居客房产经纪人信息采集
本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。原创 2016-07-11 11:01:18 · 4098 阅读 · 1 评论 -
API例子:用Python驱动Firefox采集网页数据
本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。开源Python即时网络爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据。原创 2016-06-29 11:51:34 · 1772 阅读 · 0 评论 -
Python使用xslt提取网页数据
这是开源Python通用爬虫项目的验证过程,在一个爬虫框架里面,其它部分都容易做成通用的,就是网页内容提取和转换成结构化的操作难于通用,我们称之为提取器。原创 2016-05-17 14:32:35 · 1607 阅读 · 0 评论 -
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
在Python网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内容提取器类gsExtractor。本文记录了确定gsExtractor的技术路线过程中所做的编程实验。原创 2016-05-19 14:31:42 · 4376 阅读 · 0 评论 -
1分钟快速生成用于网页内容提取的xslt
在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。原创 2016-05-19 14:37:23 · 2061 阅读 · 0 评论 -
Python读取PDF内容
晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。原创 2016-05-24 14:45:48 · 3394 阅读 · 0 评论 -
python爬虫:常用浏览器的useragent
在写python网络爬虫程序的时候,经常需要修改UserAgent,有很多原因。修改agent值这个操作本身比较简单,UserAgent值是一串字符串,替换上即可,主要是用对UserAgent值。原创 2016-05-30 18:05:37 · 4441 阅读 · 0 评论 -
Python爬虫实战(2):爬取京东商品列表
在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。原创 2016-06-08 11:37:56 · 8260 阅读 · 1 评论 -
Python编程规范
这是根据《Google Python编程风格指南》整理出来的Python编程规范。原创 2016-06-02 18:03:49 · 516 阅读 · 0 评论 -
API例子:用Java/JavaScript下载内容提取器
本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序。原创 2016-06-24 11:56:55 · 902 阅读 · 0 评论 -
Scrapy的架构初探
本文简单讲解一下Scrapy的架构。没错,GooSeeker开源的通用提取器gsExtractor就是要集成到Scrapy架构中,最看重的是Scrapy的事件驱动的可扩展的架构。除了Scrapy,这一批研究对象还包括ScrapingHub,Import.io等,把先进的思路、技术引进来。原创 2016-06-11 22:53:28 · 913 阅读 · 0 评论 -
Python 即时网络爬虫项目: 内容提取器的定义
在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。原创 2016-05-27 10:37:03 · 2271 阅读 · 0 评论 -
Scrapy入门程序点评
在《Scrapy的架构初探》一文,我基于爬虫开发的经验对Scrapy官网文章作了点评和解读,事件驱动的异步处理架构、极强的模块化等是个绝好的框架,接着我细读了官网的《Scrapy at a glance》,更加强了我的感受:就是他了——开源Python即时网络爬虫项目需要一个爬虫框架,我不想重复发明轮子,只想专注于爬虫里面的提取器的生成和使用,也就是Scrapy中的Spider部分。原创 2016-06-13 16:48:09 · 962 阅读 · 0 评论 -
在Python3.5下安装和测试Scrapy爬网站
Scrapy框架结构清晰,基于twisted的异步架构可以充分利用计算机资源,是爬虫做大的必备基础。本文将讲解如何快速安装此框架并使用起来。原创 2016-10-28 10:10:30 · 7643 阅读 · 1 评论