使用python爬取一个网页里表格的内容

#--*--conding:utf-8 --*--
# Author: Gonggong
# 使用python爬取一个网页中表格的内容,并把抓取到的内容以json格式保存到文件中

import requests
from lxml import etree
import json


# 获取网页源代码
r = requests.get('http://ipwhois.cnnic.cn/bns/query/Query/ipwhoisQuery.do?queryOption=ipv4&txtquery=8.8.8.8')

# 使用xpath对爬取的源代码进行处理
dom_tree = etree.HTML(r.content)
links = dom_tree.xpath("/html/body/center[1]/table[1]/tr/td/font")

# 取出links的单行、双行的数据
res1 = [i.text for i in links[::2]]
res2 = [i.text for i in links[1::2]]

# 把两行数据组合成在一起
result = tuple(zip(res1, res2))

# 使用json格式保存到文件中
json.dump(result, open('/tmp/xpath_get.txt', 'w'), ensure_ascii=False)

 

转载于:https://www.cnblogs.com/relax1949/p/9338562.html

  • 0
    点赞
  • 0
    评论
  • 6
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值