HTML爬取文件特殊字符进行转换

最新推荐文章于 2022-07-18 09:05:05 发布

Newnotes

最新推荐文章于 2022-07-18 09:05:05 发布

阅读量318

点赞数

本文链接：https://blog.csdn.net/newnotes/article/details/105999320

版权

# encoding:utf-8
import pandas as pd
import openpyxl



wk = openpyxl.load_workbook(r"t.xlsx")                              # 读取本地的excel
wk_name = wk.sheetnames                                             # 读取这个表格所有的sheet 名称
wk_sheet = wk[wk_name[0]]                                           # 获取这个表格的第一个 sheet
print(wk_sheet)
content_A1=wk_sheet.cell(row=1,column=1).value.replace("\r\n", "")   #对HTML爬取数据进行特殊字符第1次替换
content_A2=content_A1.replace("    			", " ")                 #将替换后的数据再次将多个空格（内含不知道什么字符，直接进行COPY的）替换成一个空格
content_A1=content_A2.strip().replace('   			',' ')          #将替换后的数据再次将多个空格（内含不知道什么字符，直接进行COPY的）替换成一个空格
wk_sheet.cell(row=1,column=1).value=content_A1
#wk_sheet.unmerge_cells('a1:b1')  # 拆分 b1:E2区域单元格
wk.save(r"tt.xlsx")  # 保存为s.xlsx