python3.x爬虫(一):打开网页,获取网页内容

1.网页结构(了解)

网页构成三要素:HTML、JavaScript、css

head:网页的标题,不在网页内显示。body:网页内显示的内容(上边右图)。我们是爬取body中的内容。

(这是我本地写的一个网站,所以没有链接,所以肯定是不能用来爬虫的)

2.python爬虫用的库

python用于爬虫的库为urllib

  1. urllib.request 用于打开和读取URL,

  2. urllib.error 用于处理前面request引起的异常,

  3. urllib.parse 用于解析URL,

  4.urllib.robotparser用于解析robots.txt文件

3.通过request模块下的urlopen函数打开一个网页并获取内容。

代码如下:

urlopen参数如下:

urlopen(url, data=None, timeout=<object object at 0x000001D4652FE140>, *, cafile=None, capath=None, cadefault=False, context=None)。

1.url 参数:可以是一个表示URL的字符串(如:http://www.xxxx.com/)

2.data参数:data用来指明发往服务器请求中的额外的信息(如:在线翻译,在线答题等提交的内容,后边回用到)

其他参数很少用。

from urllib.request import urlopen
#导入urlopen函数
#读取网页内容,如果网页中又中文要用“utf-8”解码
html = urlopen(
    "https://mp.csdn.net/postedit"
).read().decode('utf-8')
print(html)

运行结果

原网页代码:

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值