java 爬 维基百科_urllib和BeautifulSoup爬取维基百科的词条简单实例

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条,具体如下。

简洁代码:

#引入开发包

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

#请求URL并把结果用UTF-8编码

resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")

#使用BeautifulSoup去解析

soup=BeautifulSoup(resp,"html.parser")

#print(soup)

#获取所有以/wiki/开头的a标签的href属性

listUrl=soup.findAll("a",href=re.compile("^/wiki/"))

#输出所有词条对应的名称和URL

for link in listUrl:

if not re.search("\.(jpg|JPG)$",link["href"]):

print(link.get_text(),"","https://zh.wikipedia.org"+link["href"])

运行结果:

af09b8d041ac2bb01de138c978af2da9.png

总结

总的来说,Python是简洁而又强大的,调用几个库,就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值