可以使用 python-docx 库来读取 doc 格式的文件。具体步骤如下:
- 安装 python-docx 库:在命令行中输入
pip install python-docx
- 导入库:在 python 代码中输入
import docx
- 读取文件:使用
docx.Document('文件路径')
将文件读入内存 - 遍历文件中的段落:使用
document.paragraphs
可以获取文件中的所有段落,然后使用循环遍历每一个段落 - 在每一个段落中查找关键词:使用 Python 的字符串方法,如
str.find()
或者str.contains()
来查找关键词 - 将查找到的句子存入数据库:使用 Python 的数据库连接库,如 pyodbc 或者 pymysql,连接到数据库,然后使用 SQL 语句将句子插入到数据库的对应列中。
以下是示例代码:
``` import docx import pyodbc
连接数据库
conn = pyodbc.connect('DRIVER={SQL Server};' 'SERVER=server_name;' 'DATABASE=database_name;' 'UID=user_name;' 'PWD=password')
读取文件
document = docx.Document('文件路径')
遍历文件中的每一个段落
for paragraph in document.paragraphs: # 查找关键词 if '关键词1' in paragraph.text or '关键词2' in paragraph.text: # 将查找到的句子插入到数据库的对应列中 cursor = conn.cursor() cursor.execute("INSERT INTO table_name (column1, column2) VALUES (?, ?)