macbook使用automator实现文文本自动化处理

chengzic1999

已于 2022-05-26 20:14:35 修改

阅读量991

点赞数 1

分类专栏：不务正业系列

于 2022-05-18 21:01:28 首次发布

本文链接：https://blog.csdn.net/caozicheng1999/article/details/124850846

版权

自动化 python macos automator 自动操作

不务正业系列专栏收录该内容

13 篇文章 0 订阅

订阅专栏

在阅读PDF时，尤其是年代久远的PDF，容易出现类似如下情况，数字和英文成了全角字符，莫名空格和换行，非常抓狂。

２００１年９月１７日,世贸组织中国工作组第１８次会议通过了中国入世议
定书及附件和中国工作组报告书,标志着我国加入世贸组织的谈判全部结束;
２００１年１１月１０日,在卡塔尔首都多哈举行的世界贸易组织(ＷＴＯ)第四届
部长级会议审议并通过了中国加入世界贸易组织的决定。同年１２月１１日,中国
正式加入ＷＴＯ, 成为其第１４３个成员.

尝试使用一个 python 脚本+ mac 的自动操作，实现使用一个快捷键把上面的文本处理成正常形式。

只是实现了一个最简单，最根本的需求，主要目的是使用 automator 实现自动化，以后慢慢改。

代码仓库：ChengziCao/TextCleaner (github.com)

import jieba
import pyperclip


class TextCleaner:

    def __init__(self, str):
        self.text = str

    def text_strip(self):
        """
        移除异常空格、换行
        """
        if TextCleaner.is_contain_chinese(text):
            # 如果是中文，则去除行内空格、行尾换行
            self.text = self.text.replace(' ', '').replace('\n', '')
        else:
            # 如果是英文，则只去除行尾换行。
            self.text = self.text.replace('\n', '')

        return self

    def punctuation_convert(self):
        """
        将英文标点符号替换成中文标点
        """
        e_pun = u',.!?()<>"\':;'
        c_pun = u'，。！？（）《》“‘：；'
        table = {ord(f): ord(t) for f, t in zip(e_pun, c_pun)}
        self.text = self.text.translate(table)
        return self

    def remove_chaos(self):
        """
        去除乱码
        """
        gbk_text_list = []

        for c in self.text:
            if not TextCleaner.if_contain_chaos(c):
                gbk_text_list.append(c)

        self.text = "".join(gbk_text_list)
        return self

    def full_to_half(self):
        """
        全角转半角
        """
        fullString = str(self.text)
        halfString = ""
        for schar in fullString:
            char_code = ord(schar)
            if char_code == 12288:
                char_code = 32
            elif (char_code >= 65281 and char_code <= 65374):
                char_code -= 65248

            halfString += chr(char_code)
        self.text = halfString
        return self

    def add_en_cn_space(self):
        """
        对英文单词、数字添加空格
        """
        list1 = list(map(lambda n: ' ' + n + ' ' if (n.encode().isalnum()) else n, jieba.cut(self.text)))
        self.text = "".join(list1).strip()
        return self

    @staticmethod
    def if_contain_chaos(text_):
        """
        判断字符是否为GBK字符，如果不是则认为是乱码。因为人眼能识别的乱码在计算机看来并没有想象中那么简单，
        “涓囧厓锛屾厛锽勬崘鐚”本身也是正常的字符，故将生僻字认为是乱码，这是一个折中的办法。
        """
        try:
            text_.encode("gb2312")
        except UnicodeEncodeError:
            return True
        return False

    @staticmethod
    def is_contain_chinese(check_str):
        """
        判断字符串中是否包含中文
        """
        for ch in check_str:
            if u'\u4e00' <= ch <= u'\u9fff':
                return True
        return False


if __name__ == '__main__':
    # text: str = """２００１年９月１７日,世 贸 组 织 中 国 工 作 组 第１８次 会 议 通 过 了 中 国 入 世 议
    # 定 书 及 附 件 和 中 国 工 作 组 报 告 书,标 志 着 我 国 加 入 世 贸 组 织 的 谈 判 全 部 结 束;
    # ２００１年１１月１０日,在 卡 塔 尔 首 都 多 哈 举 行 的 世 界 贸 易 组 织(ＷＴＯ)第 四 届
    # 部 长 级 会 议 审 议 并 通 过 了 中 国 加 入 世 界 贸 易 组 织 的 决 定。同 年１２月１１日,中 国
    # 正 式 加 入 ＷＴＯ, 成 为其第１４３个成员."""

    text: str = pyperclip.paste()
    cleaner = TextCleaner(text)
    cleaner.remove_chaos().text_strip().full_to_half().punctuation_convert().add_en_cn_space()
    pyperclip.copy(cleaner.text)
    # print(cleaner.text)

然后打开 mac 的 automator 应用，打开之后选择“新建文稿”，起个名字（不要乱起，后面还会用到），然后选“快速操作”

然后找到“运行shell脚本”双击，工作流程选择“没有输入”，之后就可以像在终端里一样执行python脚本了。

在这里插入图片描述

因为我把环境变量写到 ~/.zshrc 里了，只有启动终端时才会加载，所以我写的是python的全路径，正常应该不需要写完整路径。

之后打开系统偏好设置–>键盘–>快捷键，在服务一项中找到通用，刚才新建的快速操作就在这一栏里，指定上自己希望的快捷键。

然后，只需要复制文本，按下快捷键，文本就被处理完成，大功告成啦！

在这里插入图片描述

chengzic1999

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
macbook使用automator实现文文本自动化处理

在阅读PDF格式文献时，如果想要复制某段文字做笔记，出现类似如下情况，直接抓狂。OCR 是一个不错的办法，但还是不够不方便。skyline 处理首先在单一数据库环境 (即集中式环境 )中进行研究。随着数据越来越多地以分布式方式存储和处理，对分布式数据的 skyline 处理在近年来引起了极大的关注。于是我尝试使用一个 python 脚本+ mac 的自动操作，实现使用一个快捷
复制链接

扫一扫