中文匹配 matlab

原创 2015年11月20日 09:09:06

昨天晚上帮师兄干活,我们需要把四种大学排名聚合在一起,但是这四种排名大学名称有差异,这种差异来源于不同杂志之间对同一所学校所用的称谓和翻译有所区别,比如'康奈尔大学'——'康乃尔大学','德克萨斯大学奥斯汀分校'——'德克萨斯州大学奥斯汀分校','加州大学圣塔芭芭拉分校'——'加州大学-圣塔芭芭拉',如果人为地去比较然后修改需要大量的工作(差不多300多组),所以就想用matlab做一个简单的不精确中文匹配,原理上很简单,如果两个中文字符之间有60%的相似度,就把它们列出来。

[m,n] = size(US)
[m1,n1] = size(xsun) %%US,xsun分别为两种排名后的大学列表,xsrk是xs排名在学术排名的位置
AC = cell(161,3);
ac = 1
for i = 1:m
    l1 = length(US(i));
    a = US{i};
    for j = 1:m1
        b = xsun{j};
        c = xsrk(j);
        l2 = length(xsun(j));
        count = 0;
        for x = 1:l1
            for y = 1:l2
                if a(x) == b(y)
                    count = count +1;
                end
            end
        end
        if count/l1 > 0.6
            D{ac,1} = a;
            D{ac,2} = b;
            D{ac,3} = c;
            ac =ac +1;
        end

    end
end

这里头主要解决了对cell变量处理的问题,A()和A{}之间的区别在于A()代表在这个元组里的变量,A{}代表元组里的内容,这里加以区别。

Matlab正则表达式(递归、匹配上下文等)(转载)

元字符  描述 .点  匹配任何单个字符。例如正则表达式r.t匹配这些字符串:rat、rut、r t,但是不匹配root。  $ 匹配...
  • u012730840
  • u012730840
  • 2014年02月07日 20:41
  • 1394

matlab正则表达式

正则表达式就是一个表达式(也是一串字符),它定义了某种字符串模式——利用正则表达式,可以对大段的文字进行复杂的查找、替换等。 Matlab 提供的正则表达式函数有三个: regexp——用...
  • sinat_20265495
  • sinat_20265495
  • 2016年04月09日 10:29
  • 1044

Matlab匹配追踪(MatchingPursuit) 之一

转自http://cache.baiducontent.com/c?m=9d78d513d99c12e909b7cf225801d7175b13c0227b8c96013894cd47c9221d03...
  • a573233077
  • a573233077
  • 2014年12月28日 22:48
  • 1766

Matlab/OpenCV自己实现Harris特征点提取和匹配

一 实现Harris特征点提取 使用Matlab自己实现Harris特征点提取 function [ result,cnt] = Harris( img ) %R=det(M)-k.*tr(M)....
  • Z5337209
  • Z5337209
  • 2015年03月11日 18:19
  • 4144

正则表达式匹配中文

转载自换联网 方法1: 正则匹配中文汉字根据页面编码不同而略有区别: GBK/GB2312编码:[x80-xff>]+ 或 [xa1-xff]+ UTF-8编码:[x{4e00}-x{9fa5}]...
  • justheretobe
  • justheretobe
  • 2016年11月13日 21:23
  • 359

python入门—2常见问题_1_正则表达式匹配中文

python2.7 在使用正则表达式来匹配中文字符时,经常会出现意想不到的问题,比如下面这个匹配问题: 1、问题 字符串:      飞利浦(PHILIPS)      飞利浦(PHILIPS...
  • scorpion_zs
  • scorpion_zs
  • 2017年04月06日 19:26
  • 350

Python正则表达式处理中文中的匹配

由于中文使用2个字节来表示一个字,在正则表达式中如果不进行转换的话,编译器是不能识别的,所以这里简要谈一下正则表达式中遇到中文的问题。 关于python的re模块的基本用法,与各种正则表达式的基本...
  • u010085454
  • u010085454
  • 2014年03月03日 21:46
  • 6244

匹配全部中文的正则表达式

var reg = /[\u4e00-\u9fa5\u4dae\uE863]/;  \u4dae\uE863 分别匹配的是 䶮; 后面的两个字会因为有写编码器的版本问题而无法匹配到....
  • pigaps
  • pigaps
  • 2015年12月04日 14:27
  • 396

JAVA总结(四):正则表达式匹配中文的三种方法

在对安全日志信息的分析过程中,我们经常需要利用正则表达式提取重要的字段信息,而中文就成为正则表达式绕不过去的一道坎。以“8个文件”作为测试字符串,依次做出匹配与字段提取操作。方法一:区段匹配众所周知,...
  • yiifaa
  • yiifaa
  • 2017年08月17日 14:07
  • 1938

MYSQL匹配中文字符

1 MYSQL匹配中文字符: HEX(column) REGEXP '^(..)*(E[4-9])' 用此来判断 SELECT * FROM p_sku_attr_value where HE...
  • u012885111
  • u012885111
  • 2017年02月08日 11:21
  • 766
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:中文匹配 matlab
举报原因:
原因补充:

(最多只允许输入30个字)