用Python写一个小小的爬虫程序

转载 2011年12月30日 22:56:05

用Python写一个小小的爬虫程序,Python有一个urllib的库,可以很方便的从给定的url抓取网页。

  以下这段程序实现了抓取一个url并存到指定文件的功能:

  爬虫工作的基本原理就是,给定一个初始的url,下载这个url的网页,然后找出网页上所有满足下载要求的链接,然后把这些链接对应的url下载下来,然后再找下载下来的这些网页的url,我们可以用广度优先搜索实现这个算法,不过,首先得有一个函数找出网页上所有的满足要求的url,下面这个例子用正则表达式找出url.

  最后就是广度优先搜索了,这个实现起来也很简单:

  作者用上面的算法,感觉速度还行,1小时可以抓10000多网页,可以满足小型系统的要求。

用python写一个爬虫程序

写一个爬虫程序,访问广西空气质量实时发布系统 网页实时获取南宁市各个站点的PM2.5的值(要在后台运行,实时获取)把获取的值存放到Python内置的数据库里面,这是我同学的作业,本人没学过python...
  • qq_33979657
  • qq_33979657
  • 2016年12月02日 17:35
  • 738

零基础写python爬虫之爬虫编写全记录

先来说一下我们学校的网站: http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html 查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也...
  • hmy1106
  • hmy1106
  • 2015年04月18日 14:37
  • 9107

用ruby写的一个网络爬虫程序

require 'open-uri'require 'thread'# run it like this :# ruby Crawl.rb 2 1000 http://www-cs.stanford....
  • wo970211002
  • wo970211002
  • 2015年06月09日 11:10
  • 293

Python与简单网络爬虫的编写

转自:http://xiaoxia.org/2012/11/02/python-cralwer/ 电影来了这个电影资源搜索网站火起来了,曾有一段时间因为太多人访问我的博客,访问量高于平常十多倍,...
  • zhaoyl03
  • zhaoyl03
  • 2013年03月03日 22:32
  • 8589

编写简单的网络爬虫 (python3.2)

我这里分几个部分谈谈 网络爬虫的原理:-->搜索引擎? 一、爬虫爬取网页的基本步骤大致相同:1) 人工给定一个URL 作为入口,从这里开始爬取。 万维网的可视图呈蝴蝶型,网络爬虫一般从蝴蝶...
  • database_zbye
  • database_zbye
  • 2014年08月25日 22:30
  • 14788

【详解】Python写爬虫脚本的教程

因为过去了一段时间,有好多点都可以直接写,反而不知道从哪儿开始写。所以写一个从零开始的Python爬虫教程,也是自己从头再学习和复习的一个过程。 1.Python的安装 我们这里安装Python2.7...
  • AKAK714
  • AKAK714
  • 2015年10月26日 19:01
  • 1517

Python 3.0最简单的爬虫

做个小项目练练手,比较有动力继续下去,这边参考最简单的爬虫程序自己抄了一下。但是因为3.0的关系,无法直接使用,根据3.0进行修改后成功了。代码如下:# -*- coding: utf-8 -*- #...
  • wws563
  • wws563
  • 2016年05月31日 17:01
  • 1759

《用Python写网络爬虫》--编写第一个网络爬虫

编写第一个python网络爬虫为了抓取网页,首先要下载包含有感兴趣数据的网页,该过程一般被称为爬取(crawing)。下载网页想要爬取网页,我们首先要将其下载下来。下载的脚本如下:import url...
  • zhujianing1993
  • zhujianing1993
  • 2017年03月30日 21:18
  • 741

写一个小小的服务器

运行下方服务器代码,后在浏览器(客户端)地址栏中输入 http://localhost:8088/  ,在工程中拷入照片和下方的HTML, 与src目录同级,http://localhost:80...
  • Java1029384756
  • Java1029384756
  • 2016年10月20日 21:54
  • 115

使用Python写一个小小的项目监控

在公司里做的一个接口系统,主要是对接第三方的系统接口,所以,这个系统里会和很多其他公司的项目交互。随之而来一个很蛋疼的问题,这么多公司的接口,不同公司接口的稳定性差别很大,访问量大的时候,有的不怎么行...
  • zhongyi_yang
  • zhongyi_yang
  • 2015年05月28日 13:59
  • 162
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:用Python写一个小小的爬虫程序
举报原因:
原因补充:

(最多只允许输入30个字)