Total-Text-Dataset 项目推荐

Total-Text-Dataset 项目推荐

Total-Text-Dataset Total Text Dataset. It consists of 1555 images with more than 3 different text orientations: Horizontal, Multi-Oriented, and Curved, one of a kind. Total-Text-Dataset 项目地址: https://gitcode.com/gh_mirrors/to/Total-Text-Dataset

1. 项目基础介绍和主要编程语言

Total-Text-Dataset 是一个开源的文本检测数据集项目,由 GitHub 用户 cs-chan 维护。该项目主要用于场景文本检测和识别的研究,提供了丰富的图像数据和标注信息。项目的主要编程语言是 Python,适合用于机器学习和计算机视觉领域的研究人员和开发者使用。

2. 项目核心功能

Total-Text-Dataset 的核心功能包括:

  • 多方向文本数据集:提供了 1555 张图像,包含三种不同的文本方向:水平、多方向和弯曲文本。
  • 高质量标注:每张图像都经过精细标注,包括文本位置和内容,适用于各种文本检测和识别算法的训练和评估。
  • 开源社区支持:项目在 GitHub 上开源,支持社区贡献和反馈,不断更新和改进。

3. 项目最近更新的功能

最近更新的功能包括:

  • 2022年4月6日更新:检测排行榜更新,增加了 FCE、ABPNet、PCR、CentripetalText 和 HierText 等方法的评估结果。
  • 2020年4月29日更新:检测排行榜更新,特别强调了端到端(E2E)方法的性能。
  • 2019年9月8日更新:新的训练集标注信息发布,提供了更详细的标注数据。
  • 2019年9月7日更新:更新了场景文本图像标注的引导工具箱,提升了标注效率和准确性。

Total-Text-Dataset 项目为文本检测和识别领域的研究提供了宝贵的数据资源和工具支持,是相关研究人员和开发者不可或缺的资源。

Total-Text-Dataset Total Text Dataset. It consists of 1555 images with more than 3 different text orientations: Horizontal, Multi-Oriented, and Curved, one of a kind. Total-Text-Dataset 项目地址: https://gitcode.com/gh_mirrors/to/Total-Text-Dataset

以下是一个例子,展示如何使用TAR:SQL Guided Pre-Training来训练数据: 1.准备数据 首先,需要准备一个包含自然语言问题和对应的SQL查询的数据集。例如,以下是一个简单的数据集: | Question | SQL Query | | -------- | --------- | | What is the name of the employee with ID 123? | SELECT name FROM employees WHERE id=123 | | How much did the company earn in 2020? | SELECT SUM(revenue) FROM sales WHERE year=2020 | | Show me the customers who have made at least 3 purchases. | SELECT customer_name FROM sales GROUP BY customer_name HAVING COUNT(*)>=3 | 2.预处理数据 接下来,需要使用TAR:SQL Guided Pre-Training的预处理工具对数据进行处理。以下是一个示例代码: ``` from transformers import AutoTokenizer from tar.preprocessing import SQLDatasetProcessor tokenizer = AutoTokenizer.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') processor = SQLDatasetProcessor(tokenizer=tokenizer) train_data = processor.process(file_path='train_data.csv') dev_data = processor.process(file_path='dev_data.csv') ``` 其中,`train_data.csv`和`dev_data.csv`是包含问题和SQL查询的数据集文件。 3.训练模型 接下来,可以使用TAR:SQL Guided Pre-Training来训练模型。以下是一个示例代码: ``` from transformers import AutoModelForSeq2SeqLM, TrainingArguments, Trainer from tar.configs import SQLConfig from tar.tasks import SQLTask model = AutoModelForSeq2SeqLM.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') config = SQLConfig.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') task = SQLTask(model=model, config=config) training_args = TrainingArguments( output_dir='./results', evaluation_strategy='steps', eval_steps=100, save_total_limit=10, learning_rate=1e-4, per_device_train_batch_size=2, per_device_eval_batch_size=2, num_train_epochs=10, weight_decay=0.01, push_to_hub=False, ) trainer = Trainer( model=task, args=training_args, train_dataset=train_data, eval_dataset=dev_data, ) trainer.train() ``` 此代码将使用TAR:SQL Guided Pre-Training来训练模型,使用训练数据集`train_data`和开发数据集`dev_data`。其中,`TrainingArguments`是训练参数,可以根据需要进行修改。 4.使用模型 最后,可以使用训练好的模型来进行文本到SQL查询的转换。以下是一个示例代码: ``` from transformers import AutoTokenizer from tar.tasks import SQLTask tokenizer = AutoTokenizer.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') model = SQLTask.from_pretrained('results/checkpoint-1000') text = 'What is the name of the employee with ID 123?' inputs = tokenizer(text, return_tensors='pt') outputs = model.generate(inputs['input_ids']) sql_query = tokenizer.decode(outputs[0], skip_special_tokens=True) print(sql_query) ``` 此代码将使用训练好的模型`model`,将自然语言问题`text`转换为对应的SQL查询。结果将打印出来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

褚胡楠Megan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值