python爬虫，记录爬取全球所有国家-首都的简单爬虫

最新推荐文章于 2022-04-18 00:53:20 发布

python实验室

最新推荐文章于 2022-04-18 00:53:20 发布

阅读量1.4k

点赞数

分类专栏： python爬虫文章标签： python 爬虫 csv html sublime text

本文链接：https://blog.csdn.net/weixin_42866931/article/details/109589027

版权

本文记录了一次使用Python爬虫抓取并保存全球所有国家及其首都信息的过程，主要涉及urllib和BeautifulSoup库。通过分析HTML结构，实现了数据的循环获取并导出到CSV文件。

摘要由CSDN通过智能技术生成

python爬虫，记录爬取全球所有国家-首都的简单爬虫

本来以为简单至极，没想到获取数据还是花费了大把功夫。先上图

在这里插入图片描述

<table>
<tr>
<td>
<strong>1</strong>
</td>
<td>
<a>中国</a>
</td>
<td>
北京
</td>
</tr>
</table>

看起来很简单吧？总共有6个表格，217国家-首都。所有的关键数据都在中。只要循环就能拿到数据，关键是怎么拿。一下是我的方法。

def get_data(response):
    #解析网页
    soup = BeautifulSoup(response, 'lxml')
    result = soup.find_all('h2')
    state = []
    for s in result:
        '''
        有大量带'\t'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

python实验室

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

国家中英文对照.xlsx

02-11

画nCoV疫情地图时所需的表格，包含各个国家的中文名称与英文名称，在学习爬虫的时候，爬取nCoV疫情数据时，需要用到pyecharts进行可视化，其中地图上国家的名称为英文，但网站爬取的国家名称为中文，因此需要进行转换

python提取国家名称缩写_如何从python中的国家缩写中获取国家名称，并混合使用alpha_2和alpha_3 ccodes...

weixin_35951321的博客

01-15

1733

考虑到您已经拥有了数据集，或者可以通过pycountry获取数据集，您可以使用以下方法来处理它。在import pycountrynew_df = df['country-code'].apply(lambda x: pycountry.countries.get(alpha_3=x).name if len(x) == 3 else pycountry.countries.get(alpha_2...

参与评论您还未登录，请先登录后发表或查看评论

Python实现用户输入国家名称，打印出所输入的国家名称和首都。

ZhengKa-ho的博客

04-26

8484

该功能实现方案，利用Python中的字典来实现，python代码如下： ''' 编写程序，实现如下功能： • 用户输入国家名称； • 打印出所输入的国家名称和首都。 ''' country = {'中国':'北京','俄罗斯':'莫斯科','美国':'华盛顿','英国':'伦敦','法国':'巴黎','德国':'柏林'} //建立相关国家的字典，本程序较为简单，一般这些信息存放在数据库里 n = input("请输入国家名称: ") if n in country: print(f"{n}的首

Python3字典操作错误之遍历查询

Ricky_hu的专栏

12-26

557

昨天在LeetCode上刷一个题的时候遇到需要对字典的key进行遍历查询，结果出现如下错误： RuntimeError: dictionary changed size during iteration 出错的代码段如下： for j in ans.keys(): #遍历模板ans字典 if (j not in ans_temp): #对于在后...

python基础练习题:查找首都【难度：1级】--景越Python编程实例训练营,不同难度Python习题，适合自学Python的新手进阶

景越Python编程实例训练营

10-03

1064

python基础练习题:查找首都【难度:1级】: 说明编写一个函数,接受一个字符串(word)作为参数.该函数必须返回一个包含字符串中的所有大写字母索引的有序列表. 示例 Test.assertSimilar(大写( 'CodEWaRs'),[0,3,4,6]); Test.assert_equals(大写( 'CodEWaRs'),[0,3,4,6]); 大写 ""`shouldBe`...

Python练习题答案: 查找因素下到极限【难度：1级】--景越Python编程实例训练营,1000道上机题等你来挑战

景越Python编程实例训练营

09-26

451

查找因素下到极限【难度:1级】: 答案1: def factors(integer, limit): return [x for x in range(limit,integer+1) if integer % x == 0] 答案2: def factors(a, b): return [x for x in range(b, a + 1) if not a % x] ...

python爬虫-爬取火车票.zip

01-21

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取火车票数据能帮助我们分析火车票的定价、余票、时段等信息。在这个项目中，我们将深入探讨如何利用Python实现火车票数据的爬取。首先，我们...

python爬虫-爬取豆瓣音乐

05-30

Python爬虫技术是数据获取的重要工具，特别是在网络信息丰富的今天，爬取网页数据成为数据分析、研究和应用的基础。本教程将聚焦于如何使用Python来爬取豆瓣音乐的相关信息，这涵盖了网页结构分析、HTTP请求、解析...

Python-爬虫-爬取二手房数据-scrapy+IP代理池

最新发布

08-29

运用scrapy与ip代理池相结合，对二手房信息进行数据爬取，能提高爬虫爬取的效率

python 爬虫，爬取豆瓣图书--源码【超详细】

04-11

1、本爬虫是爬取豆瓣网站上的TOP 250 图书信息，相关网址：https://book.douban.com/top250 2、本爬虫用到的模块有 requests,lxml,time 注：本程序只作为业余学习，程序中，对于“IndexError: list index out of ...

Python爬虫实例-爬取豆瓣Top250-保存为表格

11-06

Python爬虫实例-爬取豆瓣Top250-保存为表格

python爬虫之xpath案例——全国城市名称爬取

qq_43278562的博客

04-03

1155

# 需求：解析出所有城市名称 # url ： https://www.aqistudy.cn/historydata/ import requests from lxml import etree # # 分别爬取热门城市和全部城市的信息：即需要两个循环 # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.

爬虫-----爬取所有国家的首都、面积，并保存到txt文件中

weixin_30663471的博客

10-02

225

# -*- coding:utf-8 -*-import urllib2import lxml.htmlfrom lxml import etreedef main(): file = open('./countrys.txt', 'w+') file.close() countrys = [] url = 'https://guojiadiqu.51240.com/' ...

Python字符串中提取国家名称

Fiona_9999的博客

03-20

3722

从文本中抽取国家名称，是一个命名实体识别的问题。但是因为国家个数有限，用机器学习大材小用，用直接匹配的方法看起来是快速且准确的选择。Python中也有第三方包可以调用，在这里整理一下相关资源。 Python从字符串串中如何提取国家、地区或者城市信息？中列出了两个方法。一个是Python工具包geotext，另一个是使用数据库自己匹配的方法。 geotext（0.4.0）一个实用的Python工具包，主要是匹配的方法识别地名，包括国家和城市，可以转换为国家的ISO编码。这个包安装简单，速度非常快，处理一个句

世界各国首都经纬度-json

fffmmmm的博客

12-09

4081

var world = [ { continent: "亚洲", countrys: [ { countryname: "中国", citys: [ { cityname: "北京", lon: 116....

Python+Beautiful 抓取日本地区

qq_42449510的博客

06-08

543

MAC环境下网络爬虫抓取静态资源 MAC 配置Python python下载pip代码管理工具下载Beautiful包抓取静态资源最近公司分配一个新项目“日本房产网站”，房产网站中涉及地区信息，愁坏了人，百度、谷歌没有日本的省市县sql资源，思来想去最后决定爬取XXX网站的省市信息。经过一下午的努力（查百度）成功。 1.MAC配置Python mac系统自带Python，所以此区域没有...

python爬取全国真实地址_python爬虫爬取全国省市区

weixin_39849254的博客

12-09

526

#之前写的代码from requests_html import HTMLSessionimport requestsimport timeimport reimport datetimeimport jsonsession = HTMLSession()import mysql.connectormydb = mysql.connector.connect(host="localhost",u...

python爬取全球历年GDP数据

m0_67790374的博客

03-08

3936

python爬取全球历年GDP数据并以两种方式写入excel

Xpath之爬取全国城市名称学习

weixin_53155105的博客

04-18

229

需求:爬取所有城市名称 1.导入包 2.指定URL所有城市名称链接 3.发送get请求实例化etree对象属性定位热门城市获取全部城市获取得到所有城市优化: