中文语序识别的方法一

一、前言

        语序识别的两个思路:1.依据分词器收录的词语进行匹配查询; 2.依据海量词向量进行预测实现。

二、主要思路

        本文用第一种方法实现一下,主要思路如下:

1.检查输入的字符串,并将各字随机排列组合生成不同的“词语”;

2.将1中的词语在分词器的词库中进行匹配,返回词频;

3.选择词频最大的词语作为正确的语序进行返回。

三、实现代码

import jieba
from itertools import permutations

# 获得汉字的所有排列方式
def get_all_possible_word(str):
    word_list = list(permutations(str))
    for i in range(len(word_list)):
        word_list[i] = ''.join(word_list[i])
    return word_list


# 寻找列表中最长的词
def find_longest(list):
    l = 0
    index = 0
    for i, word in enumerate(list):
        if len(word) > l:
            l = len(word)
            index = i
    return index


# 输入词列表,返回结巴分词内词频最高的词
def find_highest_frequency(possible_words):
    word_dict = dicts(r'C:\Users\Simon\AppData\Local\Programs\Python\Python36\Lib\site-packages\jieba\dict.txt')
    possible_dict = {}
    for possible_word in possible_words:
        possible_dict[word_dict[possible_word]] = possible_word
    sorted = sort_dict_by_key(possible_dict)

# 对输入的字典根据key大小排序
def sort_dict_by_key(dic):
    return [(k, dic[k]) for k in sorted(dic.keys())]

# 将dict.txt转换为字典
def dicts(filename):
    with open(filename) as f:
        array_lines = f.readlines()
    Dict = {}
    for line in array_lines:
        line = line.strip()
        listFromLine = line.split()
        Dict[listFromLine[0]] = int(listFromLine[1])
    return Dict

# 语序识别
def recog_word_order(str):
    l = len(str)
    word_list = get_all_possible_word(str)
    possible_words = []
    for word in word_list:
        seg_list = jieba.lcut(word, cut_all=True)
        print(seg_list)
        index = find_longest(seg_list)
        if len(seg_list[index]) == l:
            possible_words.append(seg_list[index])
    if len(possible_words) == 1:
        return possible_words[0]
    elif len(possible_words) > 1:
        return find_highest_frequency(possible_words)
    else:
        return "jieba暂未收录该词语"

四、效果

测试效果还不错,如下:

五、后记

        本方法识别语序简单快捷,整体效果还是不错的。但该法高度依赖jieba的词库,如果需要检测的词语不在词库中,只需要手动添加到该词库中即可,识别正确率会越来越高。

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Fortran是一种编程语言,它最初由IBM公司于1950年代开发。Fortran最初的版本是以数学公式为基础的,因此语法结构相对简单,并且注重对数学问题的操作,特别是科学计算领域。 在Fortran中,语句的顺序是非常重要的。如果我们想要改变语句的执行顺序,我们可以使用控制语句来实现。Fortran中最常用的控制语句是IF语句和DO循环。 IF语句用于根据条件的真假选择执行不同的代码块。我们可以使用IF语句来更改Fortran程序中语句的执行顺序。例如,如果我们希望在某个条件成立时跳过某些语句,我们可以使用IF语句来控制程序的执行顺序。 DO循环是Fortran中另一个重要的控制结构,它可以让程序多次执行某个代码块。通过更改DO循环的计数变量,我们可以改变代码的执行顺序。例如,如果我们希望代码块先执行五次,然后再执行其他语句,我们可以使用DO循环来实现。 此外,Fortran还提供了其他一些控制语句,如GOTO语句和SELECT CASE语句,这些语句也可以用于更改代码的执行顺序。 总之,Fortran提供了多种控制语句来更改语句的执行顺序。通过使用这些控制语句,我们可以根据需要灵活地调整代码的执行顺序,从而实现我们想要的功能。 ### 回答2: Fortran是一种编程语言,用于科学计算和数值分析。在Fortran中更改语序指的是改变程序中语句的顺序。 在Fortran中,程序的执行是按照从上到下的顺序逐行进行的。如果需要更改语句的顺序,可以通过交换语句的位置来实现。 例如,假设有以下两行Fortran代码: ``` x = 2.0 y = x + 1.0 ``` 这两行代码的功能是将2.0赋值给变量x,然后计算x+1.0的结果,并将结果赋值给变量y。 如果想要更改语句的顺序,可以将这两行代码进行交换: ``` y = x + 1.0 x = 2.0 ``` 这样,先计算x+1.0的结果,并将结果赋值给y,然后再将2.0赋值给变量x。 通过更改语句的顺序,可以改变程序执行的逻辑和结果。在实际应用中,根据需求进行语句顺序的调整,可以提高程序的效率和可读性。 需要注意的是,更改语句的顺序可能会影响程序的正确性,特别是涉及到变量赋值、条件判断和循环等语句。在进行语句顺序的更改时,应当仔细检查程序的逻辑和功能,确保更改后的程序仍然能够正确执行所需的计算任务。 ### 回答3: Fortran(源自"Formula Translation")是一种编程语言,于20世纪50年代开发出来,用于科学和工程计算。Fortran的版本经过多次改进和更新,不同版本有不同的特性和语法规则。 尽管Fortran具有一定的历史意义和应用领域,但其语法在现代编程语言中被认为相对陈旧和过时。特别是在语序方面,Fortran采用的是传统的“自顶向下”(top-down)的结构,即主程序是从上到下运行的。 然而,随着计算机科技的进步和现代编程语言的发展,许多编程语言开始采用“自底向上”(bottom-up)的结构。这种结构允许程序员从程序末尾开始编写代码,并根据需求逐渐向上构建。这种修改语序的方式更具灵活性和可读性,使得程序员可以更快捷地编写和修改代码。 在Fortran中要改变语序,可以尝试以下方法: 1. 使用模块(module):将程序中的可复用部分抽象出来,封装到一个模块中,然后在主程序中调用。这样可以让程序更加模块化和结构化。 2. 使用子程序(subroutine)或函数(function):将重复或常用的代码块提取出来,封装到子程序或函数中,可以使得主程序更加简洁、清晰,并且便于代码重用。 3. 使用过程抽象(procedure abstraction):将一个过程划分为多个小的、易于理解的步骤,然后按照执行顺序编写代码。这样可以使程序的逻辑更加明确和易懂。 总之,Fortran作为一种编程语言,虽然在语序方面相对固定,但仍然可以通过使用模块、子程序、函数和过程抽象等技术,对其进行修改和改进,以提高程序的可读性、可维护性和灵活性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值