从文件中读取内容,包含中文和英文 --Python

读取文件内容使要和保存文件时的格式一致

以UTF-8格式保存文件,如:

 

读取:

在.py起始行写入:#-*- coding:utf-8 -*-

filename = raw_input(u"请输入一个文件名称:")
try:
fp = open(filename,'r')
for x in fp:
print x,
except IOError,e: #检查open()是否失败,通常是IOError类型的错误
print "***",e

即可读取中文。

转载于:https://www.cnblogs.com/ldy-miss/p/6336806.html

Python,`python-docx`库是一个用于处理Microsoft Word (.docx)文档的强大工具。它可以读取、操作和修改.docx文件的文本、段落、样式、图像以及表格等内容。以下是如何使用`python-docx`读取基本信息和图像的基本步骤: 首先,确保已经安装了`python-docx`库,如果没有,可以通过pip安装: ```bash pip install python-docx ``` 然后,你可以使用以下代码来读取文档内容: ```python from docx import Document def read_docx(file_path): doc = Document(file_path) # 读取文本内容 text_content = "" for paragraph in doc.paragraphs: text_content += paragraph.text + "\n" # 提取图片 images = [] for image_part in doc.parts: if image_part.partname.endswith(".emf") or image_part.partname.endswith(".jpg"): img_data = image_part.get_bytes() images.append((image_part.partname, img_data)) # 读取表格 tables = [] for table in doc.tables: table_rows = [] for row in table.rows: row_data = [] for cell in row.cells: row_data.append(cell.text) table_rows.append(row_data) tables.append(table_rows) return text_content, images, tables file_path = "your_file.docx" # 替换为你的文件路径 text, images, tables = read_docx(file_path) print("文本内容:", text) print("图片列表:", images) print("表格:", tables) ``` 这段代码会返回文本内容、图片的二进制数据和表格数据。注意,`get_bytes()`方法获取的是图片的原始二进制数据,你可能需要进一步处理以便显示或保存。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值