python版本号有4.2或者5.1吗_python的html5lib库的版本号有什么故事吗

打开IDLE,将会显示一个空白的界面.在顶行输入以下代码以导入"html5lib"模块:importhtml5libfromhtml5libimporttreebuilders,treewalkers,serializerimporturllib2创建一个新的HTML5parser,用来读取一个HTMLwebsite.输入以下代码声明一个新的parser:parser=html5lib.HTMLParser()通过传递地址到urllib2.urlopen函数来打开一个网站,例如,如果你要打开"www.example.com",输入以下代码:url=urllib2.urlopen("http://www.example.com").read()传递网站到HTML5parser来接收到一个treerepresentation.保存这个representation到一个变量"tree"中,代码如下:tree=parser.parse(url)创建一个treewalker如下:treeWalker=treewalkers.getTreeWalker("dom")使用这个treewalker遍历整个tree.这个treewalker将返回一个覆盖该html5网站的信息流.遍历整个tree的代码如下:stream=treeWalker(tree)序列化信息流以便你输出到console.你可以使用以下2条语句来序列化信息流:serial=serializer.htmlserializer.HTMLSerializer(omit_optional_tags=False)output=serial.serialize(stream)对信息流的序列化输出遍历如下:forelementinoutput:在上面一句后面缩进下面的语句,并写上一个打印函数如下:print(element)按F5执行程序.脚本将打开并解析一个HTML5网页.脚本然后序列化页面的树形结构并输出到console.输出可能会因为你选择的网页不同而有所变化,可能会类似于下面的东西:Welcometoawebpage!

阅读全文 >

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值