棘手的大数据处理问题(正则表达式)

原创 2015年11月18日 16:22:52

前段时间,我采集了四万多条 壁纸 数据,格式类似下面那样:

-------------------a
1
2
3
-------------------b
ak
al
am
an
ao
ap
aq
ar
-------------------c
1
11
21
31
41
51
61
71

因为要导进mysql数据库,我想要的最终格式是这样:

a-1
a-2
a-3

b-ak
b-al
b-am
b-an
b-ao
b-ap
b-aq
b-ar

c-1
c-11
c-21
c-31
c-41
c-51
c-61
c-71

用sublime text3 搞翻了正则,连正则递归都学了 在sublime text3 还是不能实现。
(一个个搞,搞死人,就算用excel也麻烦。)

最后我写了一个PHP去处理这件事情:

<?php
$headPattern  = '-*(\w)';          // 匹配头
$childPattern = '\r\n(\d+|\w+)';    // 匹配身体
$pattern 	  = "/{$headPattern}((?:$childPattern)(?2)*)/";
// $pattern   = "/-*(\w)((?:\r\n(\d+|\w+))(?2)*)/";

$subject = "
-------------------a
1
2
3
4
5
6
7
8
-------------------b
ak
al
am
an
ao
ap
aq
ar
-------------------c
1
11
21
31
41
51
61
71
";

echo preg_replace_callback($pattern, function ($e) use($childPattern) {
    // 二次正则匹配
    preg_match_all('/' . $childPattern . '/', $e[2], $match);
    $result = '';
    foreach ($match[1] as $key => $value) {
        $result .= $e[1] . '-' . $value . "\n";
    }
    return $result;
}, $subject);

不解析,看代码。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Hadoop中使用正则匹配的效率问题

正则表达式一直以来都是比较难掌握的,并且正则匹配的效率一直不高,特别是java语言。 大数据还没来之前,正则匹配的效率问题还不算程序的大问题。 正则匹配比较常用与URL的匹配,正巧网络流量...

给定A, B两个整数,不使用除法和取模运算,求A/B的商和余数

给定A, B两个整数,不使用除法和取模运算,求A/B的商和余数。 1.   最基本的算法是,从小到大遍历: for (i = 2 to A -1)          if (i * B > A)...

利用K-means聚类算法根据经纬度坐标对中国省市进行聚类

K-means聚类算法是一种非层次聚类算法,在最小误差的基础上将数据划分了特定的类,类间利用距离作为相似度指标,两个向量之间的距离越小,其相似度就越高。程序读取全国省市经纬度坐标,然后根据经纬度坐标进...

Radon变换理论介绍与matlab实现--经验交流

本人最近在研究Radon变换,在查阅了各种资料之后在此写下个人的理解,希望与各位牛牛进行交流共同进步,也使得理解更加深刻些。 Radon变换的本质是将原来的函数做了一个空间转换,即,将原来的XY平...

Matlab绘图-很详细,很全面

Matlab绘图强大的绘图功能是Matlab的特点之一,Matlab提供了一系列的绘图函数,用户不需要过多的考虑绘图的细节,只需要给出一些基本参数就能得到所需图形,这类函数称为高层绘图函数。此外,Ma...

CT图像重建技术

由于csdn贴图不方便,并且不能上传附件,我把原文上传到了资源空间CT图像重建技术 1.引言 计算机层析成像(Computed Tomography,CT)是通过对物体进行不同角度的射线投影测量而...

linux查找目录下的所有文件中是否含有某个字符串

查找目录下的所有文件中是否含有某个字符串  find .|xargs grep -ri "IBM"  查找目录下的所有文件中是否含有某个字符串,并且只打印出文件名  find .|xargs g...

Radon变换入门matlab CT原理

http://hi.baidu.com/hi9394/blog/item/0d492b8bfd714700c8fc7aa9.html 简介 图像投影,就是说将图像在某一方向上做线性积分(或理解为累...

Intel系列处理器的三种工作模式

Intel系列处理器的三种工作模式 微机中常用的Intel系列微处理器的主要发展过程是:8080,8086/8088,80186, 80286,80386,80486,Pentium,Pen...

js弹出框、对话框、提示框、弹窗总结

js弹出框、对话框、提示框、弹窗总结 一、JS的三种最常见的对话框 [javascript] view plaincopy //=...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:棘手的大数据处理问题(正则表达式)
举报原因:
原因补充:

(最多只允许输入30个字)