用Python 和 OpenCV 实现火车票的信息提取

软考和人工智能学堂

于 2023-02-12 16:15:00 发布

阅读量1.2k

点赞数 1

分类专栏： python opencv Python开发经验文章标签：人工智能 python opencv

本文链接：https://blog.csdn.net/u010986241/article/details/128980685

版权

Python开发经验同时被 3 个专栏收录

123 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

python

8 篇文章

订阅专栏

opencv

2 篇文章

订阅专栏

本文介绍了一种使用Python和OpenCV提取中国火车票基本信息的算法流程，包括图像识别、文字识别、数据处理、数据存储、数据分析和数据展示。通过图像处理和OCR技术，识别火车票上的文字，进一步提取关键信息，如票号、出发站、到站等，然后存储到数据库，并进行数据分析和可视化展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

档案电子化已经是大势所趋，而财务档案中的火车票自动识别是一个长期被关注的问题。下面给出一个提取中国火车票上的基本信息的算法的流程：

图像识别：使用图像识别技术识别火车票上的文字信息。

文字识别：对图像识别得到的文字信息进行识别，提取火车票上的基本信息。

数据处理：对提取出的信息进行整理和格式化，得到清晰明了的信息。

数据存储：将处理好的信息存储到数据库或者文件中，以便日后查询和使用。

数据分析：对存储的信息进行分析，统计火车票的相关数据，如乘车人数、乘车路线等。

数据展示：将分析出的数据以图表、表格等形式展示出来，方便用户查看和使用。

下面，给出这个算法的实现。

图像识别

下面是一个基于Python 和 OpenCV 的简单图像识别代码示例：

import cv2

# 读取图片
img = cv2.imread("image.jpg")

# 转换为灰度图
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 应用阈值处理，使图片二值化
_, threshold = cv2.threshold(gray, 120, 255, cv2.THRESH_BINARY)

# 寻找图片轮廓
contours, _ = cv2.findContours(threshold, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)

# 在原图上绘制轮廓
cv2.drawContours(img, contours, -1, (0, 0, 255), 2)

# 显示图片
cv2.imshow("Result", img)
cv2.waitKey(0)
cv2.destroyAllWindows()

该代码使用了 OpenCV 的图像处理函数，包括读取图片、转换为灰度图、二值化、寻找轮廓等。最终，它在原图上绘制出轮廓，并显示结果图像。

文字识别

下面是一个使用 Python 和 OpenCV 实现文字识别的代码示例：

import cv2
import pytesseract

# Load the image and convert it to grayscale
image = cv2.imread("image.jpg")
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# Apply Otsu's thresholding to the grayscale image
threshold = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)[1]

# Pass the thresholded image to the Tesseract OCR engine
text = pytesseract.image_to_string(threshold)

print(text)

数据处理

数据处理的代码将根据您的需求而不同，但是我们可以使用 Python 的字符串操作和正则表达式等功能进行一些基本的处理。

下面是一个简单的示例，它从识别的文本中提取出火车票号码：

import re

text = "Ticket No.: 12345678 Train No.: G1234 Departure: Beijing Arrival: Shanghai"

# Use regular expression to extract the ticket number
ticket_number = re.search(r"Ticket No.: (\d+)", text).group(1)

print("Ticket Number:", ticket_number)

这段代码使用了正则表达式中的 search 函数，从识别的文本中匹配出 "Ticket No.: 12345678" 的模式。然后使用 group 函数从匹配的字符串中提取出票号码。

根据您需要的数据结构，可以使用其他技术（如字符串分割，字典等）来处理文本数据。

提取出发站、到站、车次、时间、票价、乘车人信息需要使用 Optical Character Recognition（OCR）技术识别图像中的文字，然后使用数据抽取技术对识别出的文字进行数据处理。具体代码实现取决于使用的语言和技术栈。下面是一个用 Python 实现的示例：

import pytesseract
import cv2

def extract_ticket_info(image_path):
    # 使用pytesseract库识别图像中的文字
    text = pytesseract.image_to_string(cv2.imread(image_path))
    
    # 利用正则表达式提取信息
    import re
    pattern = re.compile(r'出发站：(.*?)\n到达站：(.*?)\n车次：(.*?)\n时间：(.*?)\n票价：(.*?)\n乘车人：(.*?)\n')
    match = re.search(pattern, text)
    
    if match:
        departure_station = match.group(1)
        arrival_station = match.group(2)
        train_number = match.group(3)
        time = match.group(4)
        price = match.group(5)
        passenger = match.group(6)
        
        return {
            '出发站': departure_station,
            '到达站': arrival_station,
            '车次': train_number,
            '时间': time,
            '票价': price,
            '乘车人': passenger
        }
    else:
        return None

实际上，上述给出的代码更适合提取登机牌的信息，因为国内的火车票上都是直接显示信息，而没有栏目名称。

中国火车票的信息布局是固定的，所以我们可以根据图像识别出的文字所在位置来确定它们的信息类型，再根据预定义的信息模板对文字进行解析和整理。

import cv2
import pytesseract

# 加载图像
image = cv2.imread('ticket.jpg')

# 将图像转换为灰度图像
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 使用pytesseract识别图像中的文字
text = pytesseract.image_to_string(gray, lang='chi_sim')

# 解析出发站、到站、车次、时间、票价、乘车人信息
# 解析代码省略

# 输出信息
print('出发站：', departure_station)
print('到站：', arrival_station)
print('车次：', train_number)
print('时间：', time)
print('票价：', price)
print('乘车人：', passenger)

数据存储

下面是一个使用PHP的代码示例，该代码将识别到的火车票信息插入到 MySQL 数据库中。

<?php

// 连接到 MySQL 数据库
$conn = mysqli_connect('localhost', 'username', 'password', 'database_name');

// 获取识别到的火车票信息
$departure_station = 'Beijing';
$arrival_station = 'Shanghai';
$train_number = 'G123';
$time = '10:00';
$price = '100';
$passenger = 'John Doe';

// 构造 SQL 插入语句
$sql = "INSERT INTO train_tickets (departure_station, arrival_station, train_number, time, price, passenger)
VALUES ('$departure_station', '$arrival_station', '$train_number', '$time', '$price', '$passenger')";

// 执行 SQL 语句
if (mysqli_query($conn, $sql)) {
    echo "新记录插入成功";
} else {
    echo "Error: " . $sql . "<br>" . mysqli_error($conn);
}

// 关闭数据库连接
mysqli_close($conn);

?>

5.数据分析

下面是一个用 Python 进行数据分析的代码示例：

import pandas as pd

# 读取数据
data = pd.read_csv("train_data.csv")

# 查看前 5 行数据
print(data.head())

# 统计乘车人数据的基本统计量，包括平均数、标准差、最大值等
print(data["passenger_count"].describe())

# 绘制乘车人数的直方图
data["passenger_count"].plot.hist()

# 按照出发时间进行分组，统计每组的乘车人数的均值
grouped = data.groupby("departure_time")["passenger_count"].mean()
print(grouped)

# 绘制乘车人数的折线图，按照出发时间分组
grouped.plot()

这是一个简单的数据分析代码示例，使用了 pandas 库进行数据处理。在读取数据之后，我们对数据进行了描述性统计，绘制了直方图和折线图。根据实际需求，可以继续添加更多的数据分析代码。

6.数据展示

数据展示的代码可以通过不同的图表进行展示，以下是一个使用 PHP 和 Matplotlib 进行数据展示的代码示例：

<?php
// 需要先安装 matplotlib-php 扩展
require_once 'matplotlib/matplotlib.inc.php';

use matplotlib\pylab;

// 从数据库中读取数据
$conn = mysqli_connect("localhost", "root", "", "train_ticket");
$query = "SELECT departure_station, arrival_station, ticket_price FROM train_ticket_data";
$result = mysqli_query($conn, $query);

// 准备数据
$departure_stations = [];
$arrival_stations = [];
$ticket_prices = [];
while ($row = mysqli_fetch_array($result)) {
    array_push($departure_stations, $row["departure_station"]);
    array_push($arrival_stations, $row["arrival_station"]);
    array_push($ticket_prices, $row["ticket_price"]);
}

// 绘制条形图
pylab::clf();
pylab::bar(array_combine($departure_stations, $ticket_prices), width=0.5, align='center');
pylab::xlabel("Departure Station");
pylab::ylabel("Ticket Price");
pylab::title("Train Ticket Price by Departure Station");
pylab::grid(true);
pylab::savefig("train_ticket_price.png");

// 展示图片
header("Content-type: image/png");
readfile("train_ticket_price.png");

上面的代码将从数据库中读取出发站、到站和票价信息，然后使用 Matplotlib 绘制条形图并展示出来。请注意，在运行代码之前需要先安装 matplotlib-php 扩展。