java 爬维基百科_urllib和BeautifulSoup爬取维基百科的词条简单实例

最新推荐文章于 2021-03-14 10:00:10 发布

朱明朝

最新推荐文章于 2021-03-14 10:00:10 发布

阅读量367

点赞数

文章标签： java 爬维基百科

本文链接：https://blog.csdn.net/weixin_42554408/article/details/114826085

版权

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条，具体如下。

简洁代码：

#引入开发包

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

#请求URL并把结果用UTF-8编码

resp=urlopen("https://zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5").read().decode("utf-8")

#使用BeautifulSoup去解析

soup=BeautifulSoup(resp,"html.parser")

#print(soup)

#获取所有以/wiki/开头的a标签的href属性

listUrl=soup.findAll("a",href=re.compile("^/wiki/"))

#输出所有词条对应的名称和URL

for link in listUrl:

if not re.search("\.(jpg|JPG)$",link["href"]):

print(link.get_text(),"","https://zh.wikipedia.org"+link["href"])

运行结果：

总结

总的来说，Python是简洁而又强大的，调用几个库，就能实现其他语言一大堆代码才能实现的功能。

以上就是本文关于urllib和BeautifulSoup爬取维基百科的词条简单实例的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题，如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

朱明朝

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取作者个人博客网站详解

杨秀璋的专栏

02-17

1万+

前一篇文章讲述了BeautifulSoup技术，它是一个可以从HTML或XML文件中提取数据的Python库，一个分析HTML或XML文件的解析器，包括安装过程和基础语法。这篇文章将详细讲解 BeautifulSoup 爬取作者个人博客网站，通过案例的方式让大家熟悉Python网络爬虫，同时作者博客网站也是非常适合入门的案例，也能普及简单的预处理知识。希望对您有所帮助

beautifulsoup爬取网页中的表格_用 Python 爬取网页

weixin_39756273的博客

11-20

4642

来自公众号：优达学城Udacity作者：Kerry Parker编译：欧剃作为数据科学家的第一个任务，就是做网页爬取。那时候，我对使用代码从网站上获取数据这项技术完全一无所知，它偏偏又是最有逻辑性并且最容易获得的数据来源。在几次尝试之后，网页爬取对我来说就几乎是种本能行为了。如今，它更成为了我几乎每天都要用到的少数几个技术之一。在今天的文章中，我将会用几个简单的例子，向大家展示如何爬取一...

参与评论您还未登录，请先登录后发表或查看评论

wikipedia-crawler:这是一个抓取整个“维基百科”并根据需要从页面中提取和存储信息的程序

06-08

维基百科爬虫这是一个使用呼吸优先方法抓取整个维基百科并从所有页面中提取信息的程序。概括这是一个用于抓取维基百科页面并从页面中提取相关信息的 Python 程序。它以呼吸优先的方式爬行并存储它必须爬行的所有链接，从而慢慢覆盖所有维基百科。可以编辑程序以根据自己的选择提取自定义信息。然后使用 MySQLdb 库将信息写入 MySQL 表以供进一步使用。兼容性这个程序是用 Python 3.4 编写的，可以在任何版本的 Ptyhon (3.x) 上运行。它是一个下载并运行的程序，根据用户的要求进行了一些更改。地位这是该程序的第一个稳定版本，可以运行，但仍在开发中。不久将添加更多功能。免责声明该程序可让您抓取维基百科页面以获取信息。然后它下载当前正在爬行的整个维基百科页面。如果让这个程序长时间运行，它可以爬取整个维基百科在线数据库，这是非常不鼓励的！！！请通过查

java爬取wikipedia_第十五章爬取维基百科

weixin_33935636的博客

02-28

607

第十五章爬取维基百科译者：飞龙自豪地采用谷歌翻译在本章中，我展示了上一个练习的解决方案，并分析了 Web 索引算法的性能。然后我们构建一个简单的 Web 爬虫。15.1 基于 Redis 的索引器在我的解决方案中，我们在 Redis 中存储两种结构：对于每个检索词，我们有一个URLSet，它是一个 Redis 集合，包含检索词的 URL。对于每个网址，我们有一个TermCounter，这是一个 ...

java 爬 维基百科_爬取维基百科词条

weixin_28923455的博客

02-27

341

python爬取维基百科词条，获得某词汇页面中释义段落的加粗词汇、链接词汇以及所爬词汇对应的分类，为自动构建同义词汇树准备数据。以下代码可能为一次性代码，因为解析html靠的是标签的相对位置，维基百科的html标签修改后，可能会对爬虫有影响，所以先给出学习爬虫的资料，页面改动后代码对应改动即可。requests库使用教程BeautifulSoup使用教程这个爬虫是爬取我指定文件中包含的词汇，并不是...

java soup_BeautifulSoup 使用

weixin_29981095的博客

02-19

1540

测试页面地址下载网页import requestsurl = 'https://reeoo.com/'with open('web.html', encoding='utf8', mode='w+') as f:f.write(requests.get(url).text)构造soup对象测试输出from bs4 import BeautifulSoupwith open('web.html',...

装 BeautifulSoup

weixin_30443747的博客

03-28

1. 按照网上教程安装后运行from bs4 import BeautifulSoup 找不到文件因为没有下载下来的压缩包解压后放入到python的安装目录3. 如何找到安装目录win+r cmd 输入 where python2. 版本不同参考https://blog.csdn.net/www520507/article/details...

urllib和BeautifulSoup爬取维基百科的词条简单实例

01-01

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条，具体如下。简洁代码： #引入开发包 from urllib.request import urlopen from bs4 import BeautifulSoup import re #请求URL并把结果用UTF-8...

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

本实例将深入探讨如何使用Python的BeautifulSoup库与urllib.request模块来实现一个基本的网页抓取功能。首先，`urllib.request`是Python标准库中的一个模块，用于处理URL相关的请求。在爬虫领域，它主要负责发起...

Python使用urllib,urllib3,requests库+beautifulsoup爬取网页

Eritque arcus的博客

01-06

3791

使用urllib urllib3 resquests GET 网页源代码简单介绍扩展库re beautifulsoup

爬取维基百科

liudongdong_jlu

07-21

3038

深度优先的递归爬虫 #!/usr/bin/python # coding: utf-8 import requests import re import time exist_url = [] news_ids = [] g_writecount = 0 def scrappy(url, depth = 1): global g_writecount try: ...

python使用urllib,re,bs库爬取wiki百科词条

快乐的飞的博客

11-28

867

import re from urllib.request import Request from urllib.request import urlopen from bs4 import BeautifulSoup as bs """ 爬取wiki百科词条 1：原理名称： a标签的text属性 url: a标签的href属性 2.使用工具 urllib 获取连接和请求数据 BeautifulSoup 解析数据

beautysoup java_带有JavaScript源的Python / BeautifulSoup

weixin_31411313的博客

02-13

234

[{'building_header': '', 'office_hours': '', 'name': 'North Park Tower', 'matched_suite_names': ['Bachelor', 'One Bedroom', 'Two Bedroom'], 'matched_beds': ['0', '1', '2'], 'id': 309, 'statistics': {'...

BeautifulSoup

这里的分享，都是干货

10-11

596

BeautifulSoup简介 BeautifulSoup可以用来从HTML或XML文件中提取数据创建BeautifulSoup对象第一种直接通过字符串创建 soup = BeautifulSoup(html_str,'lxml',from_encoding="utf-8") 第二种将字符串保存为html文件 soup = BeautifulSoup(open('index....

JAVA快速解析unicode字符串_如何使用BeautifulSoup正确地将UTF-8编码的HTML解析为Unicode字符串？...

weixin_33065899的博客

02-25

210

我正在运行一个Python程序，它获取一个UTF-8编码的网页，我使用BeautifulSoup从HTML中提取一些文本 .但是，当我将此文本写入文件(或在控制台上打印)时，它将以意外编码形式写入 .示例程序：import urllib2from BeautifulSoup import BeautifulSoup# Fetch URLurl = 'http://www.voxnow.de/'re...

java遍历resultset_BeautifulSoup的ResultSet，如何遍历全部内容？

weixin_33236595的博客

02-21

604

这个是抓取htmldef getHtml(url):re = requests.get(url)return re.textindex = getHtml(url)index这个是解析html的方法def parseHtml(html):soup = BeautifulSoup(index,'html.parser')#souplessonList= soup.find('div',class_=...

java 爬 维基百科,Java ME

weixin_42129797的博客

03-14

此條目没有列出任何参考或来源。 (2020年8月8日)維基百科所有的內容都應該可供查證。请协助補充可靠来源以改善这篇条目。无法查证的內容可能會因為異議提出而移除。Java ME以往稱作J2ME(Java Platform, Micro Edition)是为机顶盒、移动电话和PDA之类嵌入式消费电子设备提供的Java语言平台，包括虚拟机和一系列标准化的Java API。它和Java SE、Java ...

Python爬虫（六）—解析利器 BeautifulSoup

luoz_java的博客

06-02

381

前言以下关于正则表达式 BeautifulSoup 学习，主要记录常用的知识点，深入了解的查看官方文档。 BeautifulSoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ BeautifulSoup 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。安装...

java模拟京东登陆_requests+beautifulsoup模拟登陆京东

weixin_39945871的博客

02-26

288

最近需要实现获取个人京东订单信息的功能，利用了requests+beautifulsoup来实现。requests是python的第三方库，相比之前常用的python标准库中的urllib2，requests简直不要好用太多，具体实现思路是，首先使用firefox+firebug找到京东登陆所需要的信息，利用requests的get获取需要模拟登陆的信息，post之后获取cookie，然后带着co...

Python入门：使用urllib和BeautifulSoup构建简易Web爬虫

"本文主要讲解了如何使用Python实现一个简单的Web爬虫，涉及Python的urllib和BeautifulSoup库，以及爬虫的基本工作流程和数据结构的构建。" Python实现简易Web爬虫涉及到的关键知识点包括： 1. **网络爬虫概念**：...

java 爬 维基百科_urllib和BeautifulSoup爬取维基百科的词条简单实例

java 爬维基百科_urllib和BeautifulSoup爬取维基百科的词条简单实例