用Python写一个小小的爬虫程序

转载 2011年12月30日 22:56:05

用Python写一个小小的爬虫程序,Python有一个urllib的库,可以很方便的从给定的url抓取网页。

  以下这段程序实现了抓取一个url并存到指定文件的功能:

  爬虫工作的基本原理就是,给定一个初始的url,下载这个url的网页,然后找出网页上所有满足下载要求的链接,然后把这些链接对应的url下载下来,然后再找下载下来的这些网页的url,我们可以用广度优先搜索实现这个算法,不过,首先得有一个函数找出网页上所有的满足要求的url,下面这个例子用正则表达式找出url.

  最后就是广度优先搜索了,这个实现起来也很简单:

  作者用上面的算法,感觉速度还行,1小时可以抓10000多网页,可以满足小型系统的要求。

使用Python写的第一个网络爬虫程序

尝试写Python网络程序的一点经验总结
  • wlqingwei
  • wlqingwei
  • 2015-06-02 16:34:46
  • 4430

用python写一个爬虫程序

写一个爬虫程序,访问广西空气质量实时发布系统 网页实时获取南宁市各个站点的PM2.5的值(要在后台运行,实时获取)把获取的值存放到Python内置的数据库里面,这是我同学的作业,本人没学过python...
  • qq_33979657
  • qq_33979657
  • 2016-12-02 17:35:19
  • 902

selenium2java写一个小小的爬虫程序

本人在学习selenium的过程中,本人偶然接触到爬虫获取网页信息,自己写了一个简单的获取课程信息的方法。 String xpath = "xpath"; for(int i=1;i...
  • Fhaohaizi
  • Fhaohaizi
  • 2017-04-27 10:49:43
  • 253

用python写网络爬虫书本源码

  • 2017年12月15日 14:53
  • 4.67MB
  • 下载

用python写一个简单的爬虫功能

iOS开发如果之前没接触过除了c和c++(c++太难了,不花个十来年基本不可能精通)的语言,第二门语言最好的选择就是python.原因就是1.语法简单2.库太多,随便想要什么功能的库都找得到,简直编程...
  • jinglijun
  • jinglijun
  • 2016-02-20 14:50:47
  • 24801

一个Python 爬虫程序

一个简单的实现煎蛋网妹子图片爬取的Python脚本# -*- coding:utf-8 -*- ''' version:Python 2.6 standard libs: urllib author:...
  • sinat_22568735
  • sinat_22568735
  • 2017-06-18 16:45:39
  • 531

linux下用python写简单的爬虫程序

linux下用python写简单的爬虫程序简述下这个爬虫程序的基本原理: HTTP请求 通过起始url获得页面内容 正则表达式 通过正则表达式获取想要的信息 获取到本地 http请求geturl....
  • blog_liuliang
  • blog_liuliang
  • 2016-05-26 16:47:24
  • 525

python制作一个简单网络爬虫

我们现在用python标准库urllib2来实现简单的网络爬虫(本章很简单适合小白,不喜勿喷) 一、urllib2定义了以下方法: urllib2.urlopen( URL, Data, ...
  • sinat_38682860
  • sinat_38682860
  • 2017-05-30 21:20:39
  • 402

Python写的一个爬虫程序

用Python写的爬虫程序,可以爬小说
  • hello_1218
  • hello_1218
  • 2014-10-14 14:13:54
  • 346

一个小小的举动她就很感动

总是在说回报父母的养育恩。总是想着为了父母做点什么,这是我一直的想法。相信也是大部分人的想法吧,想着以后自己有机会,一定要尽孝心当孝子,想着自己有了钱好好报答父母。         不知道别...
  • hy6688_
  • hy6688_
  • 2012-07-14 21:16:06
  • 1072
收藏助手
不良信息举报
您举报文章:用Python写一个小小的爬虫程序
举报原因:
原因补充:

(最多只允许输入30个字)