python3 编写原生爬虫 --爬虫入门

使用 python3 抓取,csdn 某篇文章 的标题,注释写的很全就不多废话了

#coding=utf-8
from urllib import request
import re

class Spider():
    #我要爬取的链接
    start_url = "https://blog.csdn.net/weixin_42144379/article/details/85332330"
    # 目标内容的正则
    regex = '<h1 class="title-article">([\s\S]*?)</h1>'

    #抓取内容,默认 url 参数为 start_url
    def getContent(self,url = start_url):
        #发送请求,获取请求数据
        source = request.urlopen(self.start_url)
        #读取请求数据,直接读取的是 byte
        html = source.read()
        #把读取的数据转为 utf-8 字符串
        html = str(html, encoding="utf-8")
        #打印抓取的网页
        print(html)
        return html

    def parse(self,url=start_url):
        #调用上的方法,抓取网页
        html = self.getContent(url)
        #使用正则,抓取标题
        title = re.findall(self.regex,html)
        #打印标题,re.findall 获取的是一个 list
        print(title)
#实例化爬虫,运行程序
Spider().parse()

如果报错,少了 urllib  网络库 re 正则库,请使用 pip 安装 

python 爬虫 最主要的是 对 urllib 里面 request 和 regex (正则) 的运用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值