用python爬取网页内容_用python爬取网页文本内容,让你快速浏览网站内容

本文介绍了如何使用Python实现网络爬虫,提取网页文本内容。通过定义`spider`类,实现从指定URL开始爬取,利用BeautifulSoup解析HTML,抓取指定class的标题和内容。代码包括请求、解析、存储等关键步骤,帮助读者快速浏览和保存网页信息。
摘要由CSDN通过智能技术生成

大家好,我是咿哑呀。今天我教大家学习网络爬虫,这个爬虫能够爬取网页文本内容,提高大家浏览网页的速度。下面我把代码贴出,大家仔细研究:

from urllib import request, parse

from urllib.parse import quote

import string

import chardet

from bs4 import BeautifulSoup

import re

import time

967c2a861a67799a79c13f79420c9723.png

# 创建类

class spider:

# 构造函数 初始化

def __init__(self, my_root_url, title_tag, con_tag, OutputFile):

self.new_urls = set() # 待爬取的url

self.old_urls = set() # 已爬取的url

self.datas = [] # 存放搜集的数据

# 添加一个到url中

self.add_new_url(my_root_url)

count = 1

while self.has_new_url():

try:

new_url = self.get_new_url()

print('%d、爬取 %s' % (count, new_url))

<
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值