Python第一个程序小爬虫

为了快速入门Python,作者选择了编写一个小爬虫作为Demo。这个简单的爬虫以百度网站大全为起点,抓取页面上的URL并放入队列,然后逐个爬取新的链接,实现网页内容的抓取。
摘要由CSDN通过智能技术生成

最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。

关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。

程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。

# -*- coding: utf-8 -*-
import urllib2
import re
import thread
import time

class HTML_Spider:

    def __init__(self):  
        self.url = []  
    #根据队列中的URL爬取界面
    def GetPage
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值