运行BeautifulSoup及urllib

在今天就主要学习了一些关于Python网络爬虫的基础知识.
关于BeautifulSoup及urllib的一些常用函数

注:一般在开头会加上如下代码

from bs4 import BeautifulSoup
from urllib.request import urlopen

此上是Python3.x 的代码,如果是Python2.x如下

from bs4 import BeautifulSoup
from urllib import urlopen
  • urllib.request.urlopen (name):别看找了三层才到它,但它在一个网络爬虫中有着重要的位置,参数name主要是网址.传递这个参数,urlopen()函数会自动打开并读取网站HTML内容(总之,我一直是这么认为的,但好像没错,例如如下代码)
html = urlopen("https://www.baidu.com")
  • bs4.BeautifulSoup(html, parser):这可以用来实例化BeautifulSoup; 参数html是提供网络HTML内容, parser是你所选用的解析器(一般用Python内置解析器"html.parser"就可以啦)
bs = BeautifulSoup(html.read(), "html.parser")

注:

  1. read()函数其实可有可无,在这里是读取文本,当然,没有read()我试过,确实也可以
    2.此处实例化了 BeautifulSoup
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值