初学网络爬虫(一)

今天学习了使用Python的第三方模块requests来发送网络请求获取html页面,现在就以爬取csdn首页面作为一个例子说一下

class CSDNSpider:
    def __init__(self):
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 
             (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"}

    def run(self, url):
        # 发送请求
        response = requests.get(url, headers=self.headers)
        # 保存页面
        with open("csdn.html", "w", encoding="utf-8") as f:
            f.write(response.content.decode())


if __name__ == '__main__':
    csdnSpider = CSDNSpider()
    csdnSpider.run("https://www.csdn.net/")

这个比较简单没有太多的东西,首先使用get传送url地址来发送请求,通过response.content或response.text获取数据,前者接受bytes类型数据后者接收str类型数据,发送带header的请求来模拟浏览器欺骗服务器,如果不够可以多添加一些参数。

最后csdn.html就爬取下来了 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值