HTML爬取文件特殊字符进行转换

# encoding:utf-8
import pandas as pd
import openpyxl



wk = openpyxl.load_workbook(r"t.xlsx")                              # 读取本地的excel
wk_name = wk.sheetnames                                             # 读取这个表格所有的sheet 名称
wk_sheet = wk[wk_name[0]]                                           # 获取这个表格的第一个 sheet
print(wk_sheet)
content_A1=wk_sheet.cell(row=1,column=1).value.replace("\r\n", "")   #对HTML爬取数据进行特殊字符第1次替换
content_A2=content_A1.replace("    			", " ")                 #将替换后的数据再次将多个空格(内含不知道什么字符,直接进行COPY的)替换成一个空格
content_A1=content_A2.strip().replace('   			',' ')          #将替换后的数据再次将多个空格(内含不知道什么字符,直接进行COPY的)替换成一个空格
wk_sheet.cell(row=1,column=1).value=content_A1
#wk_sheet.unmerge_cells('a1:b1')  # 拆分 b1:E2区域单元格
wk.save(r"tt.xlsx")  # 保存为s.xlsx

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值