python爬虫入门:1--爬取维基百科词条信息

最新推荐文章于 2025-04-27 13:43:46 发布

知足--常乐

最新推荐文章于 2025-04-27 13:43:46 发布

阅读量1.4w

点赞数 6

分类专栏： Python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/changjiale110/article/details/76145585

版权

Python 专栏收录该内容

2 篇文章

订阅专栏

开始之前先安装我们需要的库：bs4库内的Beautiful Soup 的方法

可以用pip命令：pip install beautifulsoup4

或者在pycharm中 settings–>Project:py–>Project interpreter–>点击右侧+ –>查询并install

要爬取的维基百科url–>https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5

from urllib import request
#导入bs4模块
from bs4 import BeautifulSoup as sp
#引用re方法
import re
# 维基百科url
url = "https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5"

使用request的urlopen方法打开url并用read方法去读取

html = request.urlopen(url).read()
利用bs4库解析html，这里为了简写在上面调用时我们将beautiful soup 方法起了一个别名叫做sp

soup = sp(html,"html.parser")

下面我们用 print 语句打印看输出结果截取部分内容

本来是要粘贴过来的，另一个博客粘过去就挺好，这csdn就这么丑，算了 自己输出观察吧

但很多网页为了防止爬去会阻止这样的直接访问所以我们就要去获取他们的headers作为代理
用浏览器打开需要url ，点击f12或右键检查（chrome）
点击 network –> Doc 点击f5 获取内容

拉到最后，我们看到了我们看到 request headers内的信息我门拉取其中2个使用
user-agent:
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36
和
accept:
text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8

每个人都不一样看自己的就好
使用代理只用在原代码上稍作修改就可以下面我贴出修改后的代码

from urllib import request
#导入bs4模块
from bs4 import BeautifulSoup as sp
#引用re方法
import re
# 维基百科url
url = "https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5"
#在浏览器下获取他们的headers信息
header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
          ,'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
}
req = request.Request(url, headers=header)
#打开并读取url内信息
html = request.urlopen(req).read()
#利用bs4库解析html
soup = sp(html,"html.parser")

下面我们需要取寻找我们需要爬取信息的页面代码

我们需要爬取的是词条的内容

所以打开url 点击f12 或者右键检查

使用选取箭头点击词条
点击词条后页面会跳转到指定页面代码
我们观察代码：我们需要的信息都在页面的a 标签的href 中所以下面我们的任务就简单了：抓取所有的a标签中href信息

<a href="/wiki/%E5%98%89%E7%BE%A9%E5%B8%82" title="嘉义市">嘉义市</a>

用find_all方法去抓取所有的a标签利用正则表达式取匹配href 中所有以wiki开头的，我们不需要中间带有wiki的

#需要爬取的信息在网页的 a 标签中， 所以去抓取所有的a标签
listall = soup.find_all("a", href = re.compile("^/wiki/"))

我们用get_text()或者string方法获取他的title, 用list[“href”])获取他的href,输出

for list in listall:
        print (list.get_text(),"------>",list["href"])

小伙伴有没有发现2个问题：

1.获取的href 只有后半段，我们可以手都加上前半段

print (list.get_text(),”——>”,”https://zh.wikipedia.org“+list[“href”])

2.爬去的内容里面虽然都是wiki开头但是里面有jpg类型的图片所以我们要去除图片

在输出语句前用re.search()方法加上限制条件

if not re.search("\.(jpg|JPG)$", list["href"]):

输出

部分结果

维基百科 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E5%85%B3%E4%BA%8E
人人可編輯 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E6%AC%A2%E8%BF%8E
自由 ------> https://zh.wikipedia.org/wiki/%E8%87%AA%E7%94%B1%E5%85%A7%E5%AE%B9
941,192 ------> https://zh.wikipedia.org/wiki/Special:%E7%BB%9F%E8%AE%A1
條目 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E4%BB%80%E4%B9%88%E6%98%AF%E6%9D%A1%E7%9B%AE
分类 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E5%88%86%E7%B1%BB%E7%B4%A2%E5%BC%95
主题 ------> https://zh.wikipedia.org/wiki/Portal:%E9%A6%96%E9%A0%81
求助 ------> https://zh.wikipedia.org/wiki/Wikipedia:VPA
入门 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E6%96%B0%E6%89%8B%E5%85%A5%E9%96%80/%E4%B8%BB%E9%A0%81
沙盒 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E6%B2%99%E7%9B%92
捐款 ------> https://zh.wikipedia.org/wiki/Wikipedia:%E8%81%94%E7%B3%BB%E6%88%91%E4%BB%AC/%E6%8D%90%E6%AC%BE
 ------> https://zh.wikipedia.org/wiki/File:Chiayi_City_Montage.png
嘉義市 ------> https://zh.wikipedia.org/wiki/%E5%98%89%E7%BE%A9%E5%B8%82
中華民國 ------> https://zh.wikipedia.org/wiki/%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B
臺灣省 ------> https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E7%9C%81
市 ------> https://zh.wikipedia.org/wiki/%E5%B8%82_(%E4%B8%AD%E8%8F%AF%E6%B0%91%E5%9C%8B)
臺灣本島 ------> https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3
西南部 ------> https://zh.wikipedia.org/wiki/%E5%8D%97%E8%87%BA%E7%81%A3
都市 ------> https://zh.wikipedia.org/wiki/%E9%83%BD%E5%B8%82
嘉南平原 ------> https://zh.wikipedia.org/wiki/%E5%98%89%E5%8D%97%E5%B9%B3%E5%8E%9F