进阶篇3:网页爬虫的实现1——单线程爬虫

目录

一、Requests获取网页源代码

二、Requests与正则表达式


一、Requests获取网页源代码

 获取网页源代码的方法:

1.直接获取源代码

2.修改http头获取源代码


(一)、直接获取源代码

输入网址,直接利用代码获取即可。

代码如下:

import requests
html = requests.get('http://tieba.baidu.com/f?ie=utf-8&kw=python')
print (html.text)

(二)、修改http头获取源代码

        1.User-Agent如何获取?

        回到网站,例如 https://baike.baidu.com/item/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值