文本处理--提取文本和对比

最新推荐文章于 2024-06-07 20:52:36 发布

摩羯的成长期

最新推荐文章于 2024-06-07 20:52:36 发布

阅读量1.5k

点赞数

分类专栏：办公软件

本文链接：https://blog.csdn.net/weixin_42603009/article/details/90487444

版权

小文本处理方式
数据提取与对比
1, 利用正则表达式：这种方式适用于像Notepad++等编辑软件中。通常是选出不要的删除，留下要的。
2, 利用excel : ①区分规则位置–数据->分列（这里体现了CSV文件可以读入excel的原因（逗号区分））； ② 利用1正则表达式处理后（通常观察数据，代替为tab区分，这也是excel的默认处理方式）。
3，比较方式：① excel中用IF函数或excat函数做快速对比结果为TRUE或者FALSE（这里就不得不去了解了解）；② 对比工具merge和compileFile等。

大文本处理方式
sed, awk, grep通常能够处理几十个G的文本，是以流的方式（这个比较难，现实中遇到了就去学）

举例：提取下面汉字部分
方法一：（正则）看文本寻找规则，很明显可以用 :.*，这个正则选出后面的删除，替换引号即可。
方法二：（利用excel默认tab的处理）将：换成tab键，copy到excel中，选出你所需要的列即可。
方法三：（利用excel区分规则）将以下内容copy到excel,利用分列，以：分列即可得到

“你好好啊” ： “sdjfosdfosjfods”,
“你好好啊” ： “sdjfosdfosjfods”,
“你好好啊” ： “sdjfosdfosjfods”,
“你好好啊” ：

最低0.47元/天解锁文章

摩羯的成长期

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本处理--提取文本和对比

小文本处理方式数据提取与对比1, 利用正则表达式：这种方式适用于像Notepad++等编辑软件中。通常是选出不要的删除，留下要的。2, 利用excel : ①区分规则位置–数据->分列（这里体现了CSV文件可以读入excel的原因（逗号区分））； ② 利用1正则表达式处理后（通常观察数据，代替为tab区分，这也是excel的默认处理方式）。3，比较方式：① excel中用IF函数或e...
复制链接

扫一扫