一、爬取wiki中的信息
from urllib.request import urlopen from bs4 import BeautifulSoup import re #请求URL并把结果用UTF-8编码 resp = urlopen("https://en.wikipedia.org/wiki/Main_Page").read().decode("utf-8") #使用BeautifulSoup去解析 bs = BeautifulSoup(resp, "html.parser") #获取所有以/wiki开头的a标签即url的href属性 listUrls = bs.findAll("a", href=re.compile("^/wiki/")) #输出所有的词条对应的名称和url for url in listUrls: # 过滤以.jpg或.JPG结果的url if not re.search("\.(jpg|JPG)$", url["href"]): #输出URL的文字和对应的链接 print(url.get_text(), "<--->", "https://en.wikipedia.org" + url["href"]) # 输出每一个a标签的href属性值
二、爬取豆瓣中的信息
# coding:utf - 8 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("https://movie.douban.com/") bs = BeautifulSoup(html, "lxml") # 将html对象转化为BeautifulSoup对象 liList = bs.findAll("li", {"class": "title"}) # 找到所有符合此class属性的li标签 for li in liList: name = li.a.get_text() # 获取标签<a>中文字 print(name)