棘手的大数据处理问题(正则表达式)

原创 2015年11月18日 16:22:52

前段时间,我采集了四万多条 壁纸 数据,格式类似下面那样:

-------------------a
1
2
3
-------------------b
ak
al
am
an
ao
ap
aq
ar
-------------------c
1
11
21
31
41
51
61
71

因为要导进mysql数据库,我想要的最终格式是这样:

a-1
a-2
a-3

b-ak
b-al
b-am
b-an
b-ao
b-ap
b-aq
b-ar

c-1
c-11
c-21
c-31
c-41
c-51
c-61
c-71

用sublime text3 搞翻了正则,连正则递归都学了 在sublime text3 还是不能实现。
(一个个搞,搞死人,就算用excel也麻烦。)

最后我写了一个PHP去处理这件事情:

<?php
$headPattern  = '-*(\w)';          // 匹配头
$childPattern = '\r\n(\d+|\w+)';    // 匹配身体
$pattern 	  = "/{$headPattern}((?:$childPattern)(?2)*)/";
// $pattern   = "/-*(\w)((?:\r\n(\d+|\w+))(?2)*)/";

$subject = "
-------------------a
1
2
3
4
5
6
7
8
-------------------b
ak
al
am
an
ao
ap
aq
ar
-------------------c
1
11
21
31
41
51
61
71
";

echo preg_replace_callback($pattern, function ($e) use($childPattern) {
    // 二次正则匹配
    preg_match_all('/' . $childPattern . '/', $e[2], $match);
    $result = '';
    foreach ($match[1] as $key => $value) {
        $result .= $e[1] . '-' . $value . "\n";
    }
    return $result;
}, $subject);

不解析,看代码。

版权声明:本文为博主原创文章,未经博主允许不得转载。

数据预处理 - 归一化/标准化/正则化

http://www.bubuko.com/infodetail-557740.html     一、标准化(Z-Score),或者去除均值和方差缩放 公式为:(X-mean)/std  计算...
  • u013571243
  • u013571243
  • 2016年03月15日 20:35
  • 1847

[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化

reference: http://www.cnblogs.com/chaosimple/p/4153167.html   一、标准化(Z-Score),或者去除均值和方差缩放 公式...
  • lixintong1992
  • lixintong1992
  • 2016年05月20日 17:25
  • 2823

数据预处理之 标准化/正则化 处理

标准化(Scale)和正则化(Normalization)是两种常用的数据预处理方法,其作用是让数据变得更加“规范”一些。在文本聚类等任务中使用的比较多。 针对某数据,如果不适用数据标准化、正则化,...
  • chixujohnny
  • chixujohnny
  • 2017年01月08日 09:10
  • 1392

15个超有用的正则表达式

15个超有用的正则表达式,WEB开发人员都应该将它收藏到自己的工具包。验证域名检验一个字符串是否是个有效域名。 $url = "http://komunitasweb.com/";...
  • lz0426001
  • lz0426001
  • 2016年02月19日 09:58
  • 219

关于大数据格式化文档逐行解析中\r\n和\n混杂的问题

我们在处理一个格式化文档时,可能会遇到逐行解析的情况。在java操作FIle的API中,提供了LineNumberReader流,可以方便定位指定行数据,或者利用FileReader的readerli...
  • Stefan_xiepj
  • Stefan_xiepj
  • 2017年03月28日 11:23
  • 264

棘手的大数据处理问题(正则表达式)

前段时间,我采集了四万多条 壁纸 数据,格式类似下面那样:-------------------a 1 2 3 -------------------b ak al am an ao ap aq ar...
  • technofiend
  • technofiend
  • 2015年11月18日 16:22
  • 782

Data Analysis学习笔记 --- Python数据清洗正则处理字符串

Data Analysis学习笔记 --- Python数据清洗正则处理字符串
  • u012965373
  • u012965373
  • 2017年04月13日 14:57
  • 1079

前端一些棘手的问题

问题1在掘金上看到一个关于CSS定位很有趣求助问题,目前没有找到解决方法,先记录一下。问题描述: 给一个元素设置position:fixed,如果给他的祖先元素加上transform属性,将会导致f...
  • lihefei_coder
  • lihefei_coder
  • 2017年07月31日 16:24
  • 183

大数据处理问题

topK问题topK算法就是给出一堆数,在里面找出最大、最常出现的等一系列问题。 topK算法(常考) 方法1:K大小的数组存topK 维护一个K大小的排序数组,每次都和最后一个元素比较,如果比...
  • iihtd
  • iihtd
  • 2016年06月21日 09:24
  • 293

R语言︱文本(字符串)处理与正则表达式

处理文本是每一种计算机语言都应该具备的功能,但不是每一种语言都侧重于处理文本。R语言是统计的语言,处理文本不是它的强项,perl语言这方面的功能比R不知要强多少倍。幸运的是R语言的可扩展能力很强,DN...
  • sinat_26917383
  • sinat_26917383
  • 2016年04月11日 15:22
  • 11168
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:棘手的大数据处理问题(正则表达式)
举报原因:
原因补充:

(最多只允许输入30个字)