解析html生成xpath,xpath解析html标签(示例代码)

最近忙一个需求:把一个字符串形式的html文档转化成excel。

分解需求:

① 实现语言 ———— python

② html解析 ———— 用 lxml库的etree工具,xpath方式解析文档树

③ 写excel ———— 用 xlwt库写excel

代码片段:

# -*- coding:utf-8 -*-

from __future__ import unicode_literals

import os, sys

reload(sys)

sys.setdefaultencoding(‘utf8‘)

import MySQLdb

import json

import xlwt

from lxml import etree

# 解析html字符串的方法

def change(data):

html = etree.HTML(str(data))

divs = html.xpath(‘//div[@class="content"]/div‘)

img_top = divs[0].xpath(‘./img/@src‘)

p_top_tmp_list = divs[0].xpath(‘./p/text()‘)

... ...

# 写excel的方法

def write_excel(filename, data):

book = xlwt.Workbook()                      #创建excel对象

sheet = book.add_sheet(‘sheet1‘)         #添加一个表

c = 0                                                #保存当前列

for d in data:                                     #取出data中的每一个元组存到表格的每一行

for index in range(len(d)):                #将每一个元组中的每一个单元存到每一列

sheet.write(c,index,d[index])

c += 1

book.save(filename)                           #保存excel

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值