Python3之爬取维基百科国家代码

因为手上的项目要校验输入的国家代码,直接就在维基百科爬了下,入门级爬虫:
import requests
from bs4 import BeautifulSoup as bs

html_doc = requests.get('https://zh.wikipedia.org/wiki/ISO_3166-1').text
# print(html_doc)
soup = bs(html_doc, 'html.parser')
# print(soup.table.find('td').text)
all_trs = soup.table.find_all('tr')
for tr in all_trs:
    if tr.find('td') is not None:
        # print(tr.find('td').descendants)
        for child in tr.find('td').children:
            # print(child)
            with open('country_code.txt', 'a') as f:
                f.write(child+',')

import requests
from bs4 import BeautifulSoup as bs

html_doc = requests.get('http://www.lingoes.cn/zh/translator/langcode.htm').text
# print(html_doc)
soup = bs(html_doc, 'html.parser')
# print(soup.table.find('tr').text)
all_trs = soup.table.find_all('tr')
for tr in all_trs:
    if tr.find('td') is not None:
        # print(tr.find('td').descendants)
        for child in tr.find('td').children:
            # 将NavigableString 转化为string
            new_str = child.string + ''
            if '语言' not in new_str and '-' in new_str:
                with open('country_code.txt', 'a') as f:
                    f.write('\'' + new_str + '\',')

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值