按列取数据，找出文本 distinct 的列

润乾软件

于 2022-01-24 10:14:07 发布

阅读量135

点赞数

分类专栏： JAVA计算文章标签：文本动态列分析

本文链接：https://blog.csdn.net/raqsoft/article/details/122662159

版权

JAVA计算专栏收录该内容

363 篇文章 2 订阅

订阅专栏

【问题】

I am new to all this, and this is probably a rather simple question, but I am stuck:

I have a large number of individual files that contain six columns each (number of rows can vary). As a simple example:

1	0	0	0	0	0
0	1	1	1	0	0

I am trying to identify how many unique columns I have (i.e. numbers and their order match), in this case it would be 3.

Is there a simple one-liner to do this? I know it is easy to compare one column with another column, but how to find identical columns?

【回答】

除了awk，该问题使用SPL也是个不错的选择，可以处理更复杂些的逻辑，比如下面这句代码可以完成/data目录下所有文件的唯一列统计：

	A
1	=directory@p("F:\\files\\data").new(~:file,(a=file(~).import(),a.fno().(a.field(~)).id().count()):count)

A1：按顺序计算每个文件中不同列值的数量，并将结果写到一个由file和count构成的二维表，结果如下：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

润乾软件

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

参与评论您还未登录，请先登录后发表或查看评论

博客

给 BIRT 的 SQL 数据集传多值参数

02-03

578

但预览结果看不到数据，原因在于JDBC因为“预防SQL注入”的安全问题，禁止了这种多值参数的传值方式。arg1相当于第一个问号，然后看结果，能查出数据来了。

博客

SQL 多字段条件查询

02-02

1025

SPL语言从理论模型上做了大量的这类创新，能极大的提高描述计算的能力，可以想象掌握了 SPL 语言的你，一个人维护的。=A2.select(pos(~.array().concat(","),"北京 ")!（可以理解为 JAVA 里的数组，只是这个数组比较广义，元素可以是任意数据类型）；还可以依次类推，~[-1] 是前一条记录,~[3] 是当前记录后面的第三条记录;=A2.select((~.销售额 -~[1]. 销售额 )>100000)pos(~.array().concat(","),"北京 ")

博客

SQL 分组条件深入剖析

01-19

2345

才导致自然而然的解题思路，能说的出，想得明白，但就是写不出相应的计算机语言。这一系列设计上的缺陷，造成了 SQL 的编写、维护、性能调优都成倍的增加工作量。集算器的 SPL 语言从根源上弃用了 SQL 背后的关系代数理论，发明新的离散数据集理论解决程序员描述计算的困难。追根溯源，上面 SQL 反映出来的问题，它缺少单纯的分组动作，不能显式的表达每个小分组，进而对每个小分组的更细致操作就无法直观表达。1、按设备分组，找到每个设备下Ready的个数c1；2、按设备分组，找到每个设备下所有状态的个数c2；

博客

多步骤复杂 SQL 优化实例

01-18

815

稍微复杂点的查询需求，写SQL就会是个烧脑的过程，除了证明我们人脑很聪明，逻辑思维能力强之外，剩余的就全是缺点，每个人经常用不同于其他人思路的方式绕行到同一个结果上，个性化这么强的编程方式，导致编写SQL、阅读SQL、调试SQL都很困难，维护成本也大大增高。在程序员编程描述计算这件事上，集算器 SPL 语言通过创新的数学理论模型《离散数据集》，大大改善《关系代数》（SQL背后的数学模型）在描述计算时的困难。简单的说是对有序计算更彻底的集合运算提倡分步等多方面创新，达到。

博客

集算器读写 json

01-17

216

在 json 文件中有上述内容，欲将其中的 results 取出并输出成新的 json 文件。A2：将 A1 的 results 字段导出成 json 字符串。A1: 读取 json 文件成字符串，导入为序表。A3：输出 json 串到文件中。

博客

解析 json，整理分散数据入库

01-16

767

根据 B5.SERVICES 记录里的字段数量循环，每个字段的名字可以在 C7 获得，每个字段的值可在 C8 取到。到此我们可以获得开篇所述“GROUPNAME”值、”SERVICES”中的键编号和“SERVICES”的值。“GROUPNAME”值、”SERVICES”中的键编号对应了数据库表 _groups 的 Groupname 和 ID。“LIST”中包含多个子孙记录，主要目标是”GROUPNAME”、”SERVICES”。“SERVICES”每个值对应数据库表 Services 中的一条记录。

博客

用集算器比较字符串相似性

01-13

485

1、有 1001 个数字串（每个数字串长度不等，都是 0~9 之内），每一个数字串都和另外 1000 个中找出相同数最多和不同数最多的数字串（等于 1001 个数字数字串都要找一次）如果只有第 1 行数字串含有 1，而第 1001 行数字串没有，算是不同数有 1 个；D7：计算 A4 与 diff 的差为 same 的值，循环并总是存下最大值，循环 2 结束。B5：循环 2，遇到成员 1 时候跳过，取成员 2 与成员 1 比较数字字符。B4：循环 1 的变量，初始为 0，记录比较的结果不同数与相同数。

博客

行转列，动态列枚举分组

01-12

408

Mongodb 不直接支持行转列，枚举分组做起来也很麻烦，要把数据读出来再用 Java、Php 等编程语言来实现；以下例子不使用 MongoDB 展现，如果使用 MongoDB 需要用 SPL 的 mongo_open()函数连接数据库，用 mongo_shell() 函数查询原始数据结构。B8、C8：根据 subs 循环，将 A4 中单个学校各科的学生成绩统计出来并按顺序拼接成序列。A5、B5、A6：生成结果表，结构是 school、sub1_5、sub1_4…sub1_1、sub2_5、sub2_4…

博客

MongoDB 导出数据成 csv

01-11

430

将 MongoDB 中的多层数据导出为结构化二维数据，实现这种算法要考虑大数据的处理，结构化数据计算，用 python 实现存在一定难度。

博客

动态 json 转化序表

01-10

797

A1：将 json 文件读成文本，导入成序表。可以看出 A1 此时相当于按照 custName 分组的目标结果表。A2：用对 A1 用 news 函数解析出 custCars 序表，合并到 A1。

博客

mongodb 中做 join 的方法

01-09

926

用 Mongodb 是不支持 join 查询的, 要多次查询很不方便。可以考虑配合 mongodb 使用的本身有计算能力的工具，比如使用 SPL。通过 employee 文档和 seller 文档查询 employee.state 为 California 的 sales orders。A4：选出满足条件的结果，订单 1、3 都属于来自 California 的雇员 1。

博客

查找满足条件的子记录并合并

01-06

224

问题是，要将 mongodb 中的一系列字符串记录按照逗号分割的首个数字值筛选。A4：将每个字符串成员转成序列，取第一个子成员，根据其选择数据。A3：找到需要计算的数据序列。

博客

筛选用户权限子集记录

01-05

408

A4：对照 A2 每条记录的 au 是不是 A3 的子集，如果是就查出来。

博客

mongodb 分组子文档合并

01-04

600

A4：每组数据的 acls 列内数据合并成一个序列，作为 readUser 保存。A3：数据根据 name 分组。

博客

对序表记录固定排序

01-03

503

A2：使用 align 函数把 A1 按照排序依据进行排序 / 对齐。[300,200,100,400] 可以是外部参数（假设命名为 list），A2 的代码则可以改为 A1.align@s(list,PRODUCT_ID)集算器提供 JDBC 接口，可以像数据库一样使用，

博客

组内每隔 5 行加一个分隔线

12-30

864

BIRT 可通过 JDBC 访问集算器，可以像数据库一样使用，参考。：在组内每隔 5 行设一个标签。

博客

文本中按规则分组区段随机抽样

12-29

365

A1:读入文件，第一行作为列名，并设置SessionDate、Start和End的数据类型，最后将SessionDate和Start拼成完整日期DateStart。A2:将A1按Easting,Northing分组，循环每一组。循环体即缩进的B2-D4，可用A2来引用循环变量。类似地，B3的循环体是C3-D4。C4-D4:如果C3过滤的结果不空，则随机取记录存入B2，并将该记录追加到D4。C3:第1组(B2==null)数据直接返回，否则过滤出与B2间隔大于6小时的记录。B3:循环C3每组数据。

博客

拆串后结构化，其中按行对齐

12-28

394

直观的办法是两个文件按行JOIN起来，用计算列就能获得sku。A1：读取文本文件的内容，将每一行作为一个成员返回成序列。A2：读取文本文件的内容，将每一行作为一个成员返回成序列。A3：拆出A2中的sku，并和A1进行连接。这段代码可以方便地集成进Java（参考。

博客

动态列合并更新

12-27

854

提问者需要将两表的一些列进行合并，将 B 表的一些列更新到 A 表。题目中已经给出了 MERGE 语句的写法，难点在于他需要合并的列数是动态的。A2、A3：查询 A 表、B 表，设置 id 为序表主键。A4：按 id 合并两表去重，保留 B 中的记录。A2：查询 B 表中要更新到 A 表的字段。

博客

记录内值排序

12-26

747

需求是把源表中每行数据中的数据排序，重新填到改行中。A3：根据 A2 每条记录转换成数组重排，再填回去。A1: 连接数据库。