文本处理--提取文本和对比

小文本处理方式
数据提取与对比
1, 利用正则表达式:这种方式适用于像Notepad++等编辑软件中。通常是选出不要的删除,留下要的。
2, 利用excel : ①区分规则位置–数据->分列(这里体现了CSV文件可以读入excel的原因(逗号区分)); ② 利用1正则表达式处理后(通常观察数据,代替为tab区分,这也是excel的默认处理方式)。
3,比较方式:① excel中用IF函数或excat函数做快速对比结果为TRUE或者FALSE(这里就不得不去了解了解);② 对比工具merge和compileFile等。

大文本处理方式
sed, awk, grep通常能够处理几十个G的文本,是以流的方式(这个比较难,现实中遇到了就去学)

举例:提取下面汉字部分
方法一:(正则)看文本寻找规则,很明显可以用 :.*, 这个正则选出后面的删除,替换引号即可。
方法二:(利用excel默认tab的处理)将 : 换成tab键,copy到excel中,选出你所需要的列即可。
方法三:(利用excel区分规则) 将以下内容copy到excel,利用分列,以:分列即可得到

“你好好啊” : “sdjfosdfosjfods”,
“你好好啊” : “sdjfosdfosjfods”,
“你好好啊” : “sdjfosdfosjfods”,
“你好好啊” :
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值