基于互信息和左右信息熵的短语提取识别

原文链接:http://www.hankcs.com/nlp/extraction-and-identification-of-mutual-information-about-the-phrase-based-on-information-entropy.html

在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤

测试数据

算法工程师

算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。


1职位简介

算法工程师是一个非常高端的职位;

专业要求:计算机、电子、通信、数学等相关专业;

学历要求:本科及其以上的学历,大多数是硕士学历及其以上;

语言要求:英语要求是熟练,基本上能阅读国外专业书刊;

必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。


2研究方向

视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师


3目前国内外状况

目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。

在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。

在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。

另外数据挖掘、互联网搜索算法也成为当今的热门方向。

算法工程师逐渐往人工智能方向发展。


我取百科中对“算法工程师”的定义,很明显这个短语应当被第一个提取出来,另外,一些固定表达也应当能够识别。

预处理

使用中文处理工具(我这里使用了自己写的HanLP)对其断句、分词、去除停用词,得到如下结果:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
[算法/n, 工程师/nnt]
[算法/n, Algorithm/nx, 解决问题/v, 清晰/a, 指令/n]
[也就是说/l]
[能够/v, 规范/v, 输入/v]
[有限/a, 时间/n, 获得/v, 要求/n, 输出/vn]
[算法/n, 有缺陷/nz]
[适合于/v, 问题/n]
[执行/v, 算法/n, 不会/v, 解决/v, 问题/n]
[不同/a, 算法/n, 可能/v, 不同/a, 时间/n, 空间/n, 效率/n, 完成/v, 同样/d, 任务/n]
[算法/n, 优劣/n, 空间/n, 复杂度/nz, 时间/n, 复杂度/nz, 衡量/v]
[算法/n, 工程师/nnt, 利用/v, 算法/n, 处理/vn, 事物/n]
[职位/n, 简介/n]
[算法/n, 工程师/nnt, 非常/d, 高端/nz, 职位/n]
[专业/n, 要求/n, 计算机/n, 电子/n, 通信/vn, 相关/vn, 专业/n]
[学历/n, 要求/n, 本科/n, 学历/n]
[硕士/nnt, 学历/n]
[语言/n, 要求/n, 英语/nz, 要求/n, 熟练/a]
[基本上/d, 阅读/v, 国外/s, 专业/n, 书刊/n]
[必须/d, 掌握/v, 计算机相关/n, 知识/n]
[熟练/a, 使用/v, 仿真/vn, 工具/n, MATLAB/nx]
[必须/d, 编程语言/gi]
[研究/vn, 方向/n]
[视频/n, 算法/n, 工程师/nnt, 图像/n, 处理/vn, 算法/n, 工程师/nnt, 音频/n, 算法/n, 工程师/nnt]
[通信/vn, 基带/nz, 算法/n, 工程师/nnt]
[目前/t, 国内外/s, 状况/n]
[目前/t, 国内/s, 从事/vi, 算法/n, 研究/vn, 工程师/nnt]
[高级/a, 算法/n, 工程师/nnt, 很少/ad]
[非常/d, 紧缺/a, 专业/n, 工程师/nnt]
[算法/n, 工程师/nnt, 研究/vn, 领域/n, 音频/n, 视频/n, 算法/n, 处理/vn, 图像/n, 技术/n, 方面/n, 信息/n, 算法/n, 处理/vn, 通信/vn, 物理层/gi, 雷达/n, 信号处理/gi, 生物/n, 医学/n, 信号处理/gi, 领域/n, 一维/n, 信息/n, 算法/n, 处理/vn]
[计算机/n, 视频/n, 图形图像/nz, 技术/n, 信息/n, 算法/n, 处理/vn, 方面/n, 目前/t, 比较/d, 先进/a, 视频/n, 处理/vn, 算法/n, 机器/n, 视觉/n, 成为/v, 算法/n, 研究/vn, 核心/n]
[2D/nx, 3D/nx, 算法/n, 2D-to-3D/nx]
[conversion/nx]
[隔行/gi, 算法/n, de-interlacing/nx]
[运动/vn, 估计/v, 运动/vn, 补偿/vn, 算法/n, Motion/nx]
[estimation/Motion/nx]
[Compensation/nx]
[算法/n, Noise/nx]
[Reduction/nx]
[缩放/gi, 算法/n, scaling/nx]
[锐化/gi, 处理/vn, 算法/n, Sharpness/nx]
[分辨率/n, 算法/n, Super/nx]
[Resolution/nx]
[手势/n, 识别/vn, gesture/nx]
[recognition/nx]
[人脸识别/nz, face/nx]
[recognition/nx]
[通信/vn, 物理层/gi, 信息/n, 领域/n, 目前/t, 常用/a, 算法/n, 领域/n, RRM/nx, RTT/nx]
[传送/v, 领域/n, 调制/vn, 解调/vn, 信道/n, 均衡/a, 信号/n, 检测/vn, 网络/n, 优化/v, 信号/n, 分解/v]
[数据挖掘/gi, 互联网/n, 搜索/vn, 算法/n, 成为/v, 当今/t, 热门/a, 方向/n]
[算法/n, 工程师/nnt, 逐渐/d, 人工智能/n, 方向/n, 发展/vn]

统计词语共现

这里需要统计的共现频次有如下几种

一阶共现

也就是每个单词的词频。事实上,在我的实验结果中,光凭从文档中统计出来的词频不能反映一个词语在整个语言中的稀有程度,所以我使用外部词频词典。

二阶共现

也就是“算法→研究”这样的接续。

三阶共现

也就是二阶短语“算法→研究”后面的接续:“算法→研究→工程师”。同时,为了接下来计算的方便,还需要统计二阶串“算法→研究”的前面可能的接续“从事→算法→研究”;在我的实现中,我使用了前缀树来储存词与词频,所以略微转个弯,记作“算法→研究←从事”。

统计结果

在这个例子中,所有的词频统计如下(词频列表比较长,点击跳过):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
二阶共现:
 
2D→3D= tf=1
3D→算法= tf=1
Algorithm→解决问题= tf=1
RRM→RTT= tf=1
一维→信息= tf=1
不会→解决= tf=1
不同→时间= tf=1
不同→算法= tf=1
专业→书刊= tf=1
专业→工程师= tf=1
专业→要求= tf=1
互联网→搜索= tf=1
人工智能→方向= tf=1
人脸识别→face= tf=1
从事→算法= tf=1
仿真→工具= tf=1
优劣→空间= tf=1
优化→信号= tf=1
传送→领域= tf=1
估计→运动= tf=1
使用→仿真= tf=1
信号→分解= tf=1
信号→检测= tf=1
信号处理→生物= tf=1
信号处理→领域= tf=1
信息→算法= tf=3
信息→领域= tf=1
信道→均衡= tf=1
先进→视频= tf=1
分辨率→算法= tf=1
利用→算法= tf=1
医学→信号处理= tf=1
可能→不同= tf=1
同样→任务= tf=1
国内→从事= tf=1
国内外→状况= tf=1
国外→专业= tf=1
图像→处理= tf=1
图像→技术= tf=1
图形图像→技术= tf=1
均衡→信号= tf=1
基带→算法= tf=1
基本上→阅读= tf=1
处理→事物= tf=1
处理→图像= tf=1
处理→方面= tf=1
处理→算法= tf=3
处理→通信= tf=1
复杂度→时间= tf=1
复杂度→衡量= tf=1
学历→要求= tf=1
完成→同样= tf=1
工具→MATLAB= tf=1
工程师→利用= tf=1
工程师→图像= tf=1
工程师→很少= tf=1
工程师→研究= tf=1
工程师→逐渐= tf=1
工程师→非常= tf=1
工程师→音频= tf=1
常用→算法= tf=1
当今→热门= tf=1
必须→掌握= tf=1
必须→编程语言= tf=1
成为→当今= tf=1
成为→算法= tf=1
手势→识别= tf=1
执行→算法= tf=1
技术→信息= tf=1
技术→方面= tf=1
掌握→计算机相关= tf=1
搜索→算法= tf=1
效率→完成= tf=1
数据挖掘→互联网= tf=1
方向→发展= tf=1
方面→信息= tf=1
方面→目前= tf=1
时间→复杂度= tf=1
时间→空间= tf=1
时间→获得= tf=1
有限→时间= tf=1
本科→学历= tf=1
机器→视觉= tf=1
检测→网络= tf=1
比较→先进= tf=1
清晰→指令= tf=1
热门→方向= tf=1
熟练→使用= tf=1
物理层→信息= tf=1
物理层→雷达= tf=1
生物→医学= tf=1
电子→通信= tf=1
目前→国内= tf=1
目前→国内外= tf=1
目前→常用= tf=1
目前→比较= tf=1
相关→专业= tf=1
研究→工程师= tf=1
研究→方向= tf=1
研究→核心= tf=1
研究→领域= tf=1
硕士→学历= tf=1
空间→复杂度= tf=1
空间→效率= tf=1
算法→2D-to-3D= tf=1
算法→Algorithm= tf=1
算法→Motion= tf=1
算法→Noise= tf=1
算法→Sharpness= tf=1
算法→Super= tf=1
算法→de-interlacing= tf=1
算法→scaling= tf=1
算法→不会= tf=1
算法→优劣= tf=1
算法→可能= tf=1
算法→处理= tf=5
算法→工程师= tf=10
算法→成为= tf=1
算法→有缺陷= tf=1
算法→机器= tf=1
算法→研究= tf=2
算法→领域= tf=1
紧缺→专业= tf=1
缩放→算法= tf=1
网络→优化= tf=1
职位→简介= tf=1
能够→规范= tf=1
英语→要求= tf=1
获得→要求= tf=1
补偿→算法= tf=1
要求→本科= tf=1
要求→熟练= tf=1
要求→英语= tf=1
要求→计算机= tf=1
要求→输出= tf=1
规范→输入= tf=1
视觉→成为= tf=1
视频→图形图像= tf=1
视频→处理= tf=1
视频→算法= tf=2
解决→问题= tf=1
解决问题→清晰= tf=1
解调→信道= tf=1
计算机→电子= tf=1
计算机→视频= tf=1
计算机相关→知识= tf=1
识别→gesture= tf=1
语言→要求= tf=1
调制→解调= tf=1
运动→估计= tf=1
运动→补偿= tf=1
适合于→问题= tf=1
逐渐→人工智能= tf=1
通信→基带= tf=1
通信→物理层= tf=2
通信→相关= tf=1
锐化→处理= tf=1
阅读→国外= tf=1
隔行→算法= tf=1
雷达→信号处理= tf=1
非常→紧缺= tf=1
非常→高端= tf=1
音频→算法= tf=1
音频→视频= tf=1
领域→RRM= tf=1
领域→一维= tf=1
领域→目前= tf=1
领域→调制= tf=1
领域→音频= tf=1
高端→职位= tf=1
高级→算法= tf=1
 
三阶共现:
 
2D→3D→算法= tf=1
3D→算法→2D-to-3D= tf=1
3D→算法←2D= tf=1
Algorithm→解决问题→清晰= tf=1
Algorithm→解决问题←算法= tf=1
RRM→RTT←领域= tf=1
一维→信息→算法= tf=1
一维→信息←领域= tf=1
不会→解决→问题= tf=1
不会→解决←算法= tf=1
不同→时间→空间= tf=1
不同→时间←可能= tf=1
不同→算法→可能= tf=1
专业→书刊←国外= tf=1
专业→工程师←紧缺= tf=1
专业→要求→计算机= tf=1
互联网→搜索→算法= tf=1
互联网→搜索←数据挖掘= tf=1
人工智能→方向→发展= tf=1
人工智能→方向←逐渐= tf=1
从事→算法→研究= tf=1
从事→算法←国内= tf=1
仿真→工具→MATLAB= tf=1
仿真→工具←使用= tf=1
优劣→空间→复杂度= tf=1
优劣→空间←算法= tf=1
优化→信号→分解= tf=1
优化→信号←网络= tf=1
传送→领域→调制= tf=1
估计→运动→补偿= tf=1
估计→运动←运动= tf=1
使用→仿真→工具= tf=1
使用→仿真←熟练= tf=1
信号→分解←优化= tf=1
信号→检测→网络= tf=1
信号→检测←均衡= tf=1
信号处理→生物→医学= tf=1
信号处理→生物←雷达= tf=1
信号处理→领域→一维= tf=1
信号处理→领域←医学= tf=1
信息→算法→处理= tf=3
信息→算法←一维= tf=1
信息→算法←技术= tf=1
信息→算法←方面= tf=1
信息→领域→目前= tf=1
信息→领域←物理层= tf=1
信道→均衡→信号= tf=1
信道→均衡←解调= tf=1
先进→视频→处理= tf=1
先进→视频←比较= tf=1
分辨率→算法→Super= tf=1
利用→算法→处理= tf=1
利用→算法←工程师= tf=1
医学→信号处理→领域= tf=1
医学→信号处理←生物= tf=1
可能→不同→时间= tf=1
可能→不同←算法= tf=1
同样→任务←完成= tf=1
国内→从事→算法= tf=1
国内→从事←目前= tf=1
国内外→状况←目前= tf=1
国外→专业→书刊= tf=1
国外→专业←阅读= tf=1
图像→处理→算法= tf=1
图像→处理←工程师= tf=1
图像→技术→方面= tf=1
图像→技术←处理= tf=1
图形图像→技术→信息= tf=1
图形图像→技术←视频= tf=1
均衡→信号→检测= tf=1
均衡→信号←信道= tf=1
基带→算法→工程师= tf=1
基带→算法←通信= tf=1
基本上→阅读→国外= tf=1
处理→事物←算法= tf=1
处理→图像→技术= tf=1
处理→图像←算法= tf=1
处理→方面→目前= tf=1
处理→方面←算法= tf=1
处理→算法→Sharpness= tf=1
处理→算法→工程师= tf=1
处理→算法→机器= tf=1
处理→算法←图像= tf=1
处理→算法←视频= tf=1
处理→算法←锐化= tf=1
处理→通信→物理层= tf=1
处理→通信←算法= tf=1
复杂度→时间→复杂度= tf=1
复杂度→时间←空间= tf=1
复杂度→衡量←时间= tf=1
学历→要求→本科= tf=1
完成→同样→任务= tf=1
完成→同样←效率= tf=1
工具→MATLAB←仿真= tf=1
工程师→利用→算法= tf=1
工程师→利用←算法= tf=1
工程师→图像→处理= tf=1
工程师→图像←算法= tf=1
工程师→很少←算法= tf=1
工程师→研究→领域= tf=1
工程师→研究←算法= tf=1
工程师→逐渐→人工智能= tf=1
工程师→逐渐←算法= tf=1
工程师→非常→高端= tf=1
工程师→非常←算法= tf=1
工程师→音频→算法= tf=1
工程师→音频←算法= tf=1
常用→算法→领域= tf=1
常用→算法←目前= tf=1
当今→热门→方向= tf=1
当今→热门←成为= tf=1
必须→掌握→计算机相关= tf=1
成为→当今→热门= tf=1
成为→当今←算法= tf=1
成为→算法→研究= tf=1
成为→算法←视觉= tf=1
手势→识别→gesture= tf=1
执行→算法→不会= tf=1
技术→信息→算法= tf=1
技术→信息←图形图像= tf=1
技术→方面→信息= tf=1
技术→方面←图像= tf=1
掌握→计算机相关→知识= tf=1
掌握→计算机相关←必须= tf=1
搜索→算法→成为= tf=1
搜索→算法←互联网= tf=1
效率→完成→同样= tf=1
效率→完成←空间= tf=1
数据挖掘→互联网→搜索= tf=1
方向→发展←人工智能= tf=1
方面→信息→算法= tf=1
方面→信息←技术= tf=1
方面→目前→比较= tf=1
方面→目前←处理= tf=1
时间→复杂度→衡量= tf=1
时间→复杂度←复杂度= tf=1
时间→空间→效率= tf=1
时间→空间←不同= tf=1
时间→获得→要求= tf=1
时间→获得←有限= tf=1
有限→时间→获得= tf=1
本科→学历←要求= tf=1
机器→视觉→成为= tf=1
机器→视觉←算法= tf=1
检测→网络→优化= tf=1
检测→网络←信号= tf=1
比较→先进→视频= tf=1
比较→先进←目前= tf=1
清晰→指令←解决问题= tf=1
热门→方向←当今= tf=1
熟练→使用→仿真= tf=1
物理层→信息→领域= tf=1
物理层→信息←通信= tf=1
物理层→雷达→信号处理= tf=1
物理层→雷达←通信= tf=1
生物→医学→信号处理= tf=1
生物→医学←信号处理= tf=1
电子→通信→相关= tf=1
电子→通信←计算机= tf=1
目前→国内→从事= tf=1
目前→国内外→状况= tf=1
目前→常用→算法= tf=1
目前→常用←领域= tf=1
目前→比较→先进= tf=1
目前→比较←方面= tf=1
相关→专业←通信= tf=1
研究→工程师←算法= tf=1
研究→核心←算法= tf=1
研究→领域→音频= tf=1
研究→领域←工程师= tf=1
空间→复杂度→时间= tf=1
空间→复杂度←优劣= tf=1
空间→效率→完成= tf=1
空间→效率←时间= tf=1
算法→2D-to-3D←3D= tf=1
算法→Algorithm→解决问题= tf=1
算法→Motion←补偿= tf=1
算法→Sharpness←处理= tf=1
算法→Super←分辨率= tf=1
算法→de-interlacing←隔行= tf=1
算法→scaling←缩放= tf=1
算法→不会→解决= tf=1
算法→不会←执行= tf=1
算法→优劣→空间= tf=1
算法→可能→不同= tf=1
算法→可能←不同= tf=1
算法→处理→事物= tf=1
算法→处理→图像= tf=1
算法→处理→方面= tf=1
算法→处理→通信= tf=1
算法→处理←信息= tf=3
算法→处理←利用= tf=1
算法→处理←视频= tf=1
算法→工程师→利用= tf=1
算法→工程师→图像= tf=1
算法→工程师→很少= tf=1
算法→工程师→研究= tf=1
算法→工程师→逐渐= tf=1
算法→工程师→非常= tf=1
算法→工程师→音频= tf=1
算法→工程师←基带= tf=1
算法→工程师←处理= tf=1
算法→工程师←视频= tf=1
算法→工程师←音频= tf=1
算法→工程师←高级= tf=1
算法→成为→当今= tf=1
算法→成为←搜索= tf=1
算法→机器→视觉= tf=1
算法→机器←处理= tf=1
算法→研究→工程师= tf=1
算法→研究→核心= tf=1
算法→研究←从事= tf=1
算法→研究←成为= tf=1
算法→领域→RRM= tf=1
算法→领域←常用= tf=1
紧缺→专业→工程师= tf=1
紧缺→专业←非常= tf=1
缩放→算法→scaling= tf=1
网络→优化→信号= tf=1
网络→优化←检测= tf=1
能够→规范→输入= tf=1
英语→要求→熟练= tf=1
英语→要求←要求= tf=1
获得→要求→输出= tf=1
获得→要求←时间= tf=1
补偿→算法→Motion= tf=1
补偿→算法←运动= tf=1
要求→本科→学历= tf=1
要求→本科←学历= tf=1
要求→熟练←英语= tf=1
要求→英语→要求= tf=1
要求→英语←语言= tf=1
要求→计算机→电子= tf=1
要求→计算机←专业= tf=1
要求→输出←获得= tf=1
规范→输入←能够= tf=1
视觉→成为→算法= tf=1
视觉→成为←机器= tf=1
视频→图形图像→技术= tf=1
视频→图形图像←计算机= tf=1
视频→处理→算法= tf=1
视频→处理←先进= tf=1
视频→算法→处理= tf=1
视频→算法→工程师= tf=1
视频→算法←音频= tf=1
解决→问题←不会= tf=1
解决问题→清晰→指令= tf=1
解决问题→清晰←Algorithm= tf=1
解调→信道→均衡= tf=1
解调→信道←调制= tf=1
计算机→电子→通信= tf=1
计算机→电子←要求= tf=1
计算机→视频→图形图像= tf=1
计算机相关→知识←掌握= tf=1
识别→gesture←手势= tf=1
语言→要求→英语= tf=1
调制→解调→信道= tf=1
调制→解调←领域= tf=1
运动→估计→运动= tf=1
运动→补偿→算法= tf=1
运动→补偿←估计= tf=1
逐渐→人工智能→方向= tf=1
逐渐→人工智能←工程师= tf=1
通信→基带→算法= tf=1
通信→物理层→信息= tf=1
通信→物理层→雷达= tf=1
通信→物理层←处理= tf=1
通信→相关→专业= tf=1
通信→相关←电子= tf=1
锐化→处理→算法= tf=1
阅读→国外→专业= tf=1
阅读→国外←基本上= tf=1
隔行→算法→de-interlacing= tf=1
雷达→信号处理→生物= tf=1
雷达→信号处理←物理层= tf=1
非常→紧缺→专业= tf=1
非常→高端→职位= tf=1
非常→高端←工程师= tf=1
音频→算法→工程师= tf=1
音频→算法←工程师= tf=1
音频→视频→算法= tf=1
音频→视频←领域= tf=1
领域→RRM→RTT= tf=1
领域→RRM←算法= tf=1
领域→一维→信息= tf=1
领域→一维←信号处理= tf=1
领域→目前→常用= tf=1
领域→目前←信息= tf=1
领域→调制→解调= tf=1
领域→调制←传送= tf=1
领域→音频→视频= tf=1
领域→音频←研究= tf=1
高端→职位←非常= tf=1
高级→算法→工程师= tf=1


提取短语

利用互信息提取

互信息体现了两个变量之间的相互依赖程度。二元互信息是指两个事件同时发生的概率函数:

互信息值越高, 表明X和Y相关性越高, 则X和Y 组成短语的可能性越大; 反之, 互信息值越低,X 和Y之间相关性越低, 则X 和Y之间存在短语边界的可能性越大。

公式中的X和Y指的是两个相邻的单词,P值是它的出现概率。

具体到这个例子,“算法→研究”一共出现了2次,而二阶短语一共有191个,所以上式的P(X,Y)= 2 / 191。同理可以求出P(X)P(Y)。

如此,可以对所有二阶短语计算互信息,排序后得出短语以及其mi值,以及它们的互信息的值,输出如下:

1
算法→工程师  mi=20.076162594887872 , 通信→物理层    mi=18.466724682453773 , 2D→3D mi=17.773577501893826 , 3D→算法 mi=17.773577501893826 , Algorithm→解决问题    mi=17.773577501893826 , RRM→RTT   mi=17.773577501893826 , 人脸识别→face mi=17.773577501893826 , 信号处理→生物   mi=17.773577501893826 , 信号处理→领域   mi=17.773577501893826 , 信道→均衡 mi=17.773577501893826 , 分辨率→算法    mi=17.773577501893826 , 医学→信号处理   mi=17.773577501893826 , 图形图像→技术   mi=17.773577501893826 , 基带→算法 mi=17.773577501893826 , 复杂度→衡量    mi=17.773577501893826 , 工具→MATLAB mi=17.773577501893826 , 工程师→音频    mi=17.773577501893826 , 常用→算法 mi=17.773577501893826 , 当今→热门 mi=17.773577501893826 , 必须→编程语言   mi=17.773577501893826 , 掌握→计算机相关  mi=17.773577501893826 , 方面→目前 mi=17.773577501893826 , 物理层→信息    mi=17.773577501893826 , 物理层→雷达    mi=17.773577501893826 , 目前→国内 mi=17.773577501893826 , 目前→国内外    mi=17.773577501893826 , 目前→常用 mi=17.773577501893826 , 目前→比较 mi=17.773577501893826 , 空间→复杂度    mi=17.773577501893826 , 算法→2D-to-3D   mi=17.773577501893826 , 算法→Algorithm  mi=17.773577501893826 , 算法→Motion mi=17.773577501893826 , 算法→Noise  mi=17.773577501893826 , 算法→Sharpness  mi=17.773577501893826 , 算法→Super  mi=17.773577501893826 , 算法→de-interlacing mi=17.773577501893826 , 算法→scaling    mi=17.773577501893826 , 算法→优劣 mi=17.773577501893826 , 算法→有缺陷    mi=17.773577501893826 , 算法→机器 mi=17.773577501893826 , 缩放→算法 mi=17.773577501893826 , 视频→图形图像   mi=17.773577501893826 , 解调→信道 mi=17.773577501893826 , 计算机相关→知识  mi=17.773577501893826 , 识别→gesture    mi=17.773577501893826 , 调制→解调 mi=17.773577501893826 , 逐渐→人工智能   mi=17.773577501893826 , 通信→基带 mi=17.773577501893826 , 锐化→处理 mi=17.773577501893826 , 隔行→算法 mi=17.773577501893826 , 雷达→信号处理   mi=17.773577501893826 , 音频→算法 mi=17.773577501893826 , 领域→RRM    mi=17.773577501893826 , 领域→一维 mi=17.773577501893826 , 领域→目前 mi=17.773577501893826 , 数据挖掘→互联网  mi=17.76783479832517 , 人工智能→方向    mi=17.64699298816246 , 成为→当今  mi=17.447830648481858 , 一维→信息 mi=17.427203254470296 , 搜索→算法 mi=17.40048039480975 , 补偿→算法  mi=17.039852876555194 , 仿真→工具 mi=16.855930038394266 , 专业→书刊 mi=16.813755113343554 , 算法→处理 mi=16.78893300341849 , 高级→算法  mi=16.76332748360438 , 复杂度→时间 mi=16.59729206550135 , 时间→复杂度 mi=16.59729206550135 , 从事→算法  mi=16.537942616447157 , 视频→算法 mi=16.521658022682658 , 工程师→图像    mi=16.489091534242924 , 优劣→空间 mi=16.371669548523666 , 职位→简介 mi=16.332923953498966 , 手势→识别 mi=16.33209056224301 , 处理→算法  mi=16.278107379652496 , 机器→视觉 mi=16.24418363011743 , 音频→视频  mi=16.190300886728213 , 领域→调制 mi=16.189962075950792 , 领域→音频 mi=16.109919368277254 , 清晰→指令 mi=15.887228980567027 , 信息→算法 mi=15.886758213523146 , 算法→领域 mi=15.748129323671751 , 算法→研究 mi=15.602493304255963 , 利用→算法 mi=15.472717343811786 , 传送→领域 mi=15.469415921202732 , 工程师→很少    mi=15.416146992323391 , 解决问题→清晰   mi=15.402357094854453 , 信号→分解 mi=15.315660837081825 , 执行→算法 mi=15.315397089223248 , 适合于→问题    mi=15.263455710232483 , 本科→学历 mi=15.237216595685506 , 不同→算法 mi=15.212095654042672 , 算法→不会 mi=15.143324782778633 , 紧缺→专业 mi=15.129415892736336 , 硕士→学历 mi=14.994726517425098 , 工程师→逐渐    mi=14.860539225785507 , 均衡→信号 mi=14.804835213315835 , 算法→可能 mi=14.775053629193474 , 使用→仿真 mi=14.638591646580268 , 基本上→阅读    mi=14.608263078043468 , 成为→算法 mi=14.52109124641482 , 算法→成为  mi=14.52109124641482 , 非常→紧缺  mi=14.479675164476351 , 生物→医学 mi=14.457291784931144 , 计算机→电子    mi=14.232128201751985 , 高端→职位 mi=14.14096848884276 , 处理→事物  mi=14.086852969302782 , 国内外→状况    mi=14.081518802118406 , 专业→工程师    mi=14.041166391103774 , 熟练→使用 mi=13.971419952423584 , 阅读→国外 mi=13.93646902195409 , 电子→通信  mi=13.923539444480891 , 信号→检测 mi=13.92308373278244 , 优化→信号  mi=13.849970389714096 , 工程师→利用    mi=13.835108554410988 , 计算机→视频    mi=13.79942318658849 , 互联网→搜索 mi=13.509389225422641 , 估计→运动 mi=13.430195153106098 , 运动→估计 mi=13.430195153106098 , 要求→熟练 mi=13.420249361400176 , 运动→补偿 mi=13.403207008388451 , 工程师→非常    mi=13.391425662843787 , 图像→处理 mi=13.370036044656933 , 处理→图像 mi=13.370036044656933 , 规范→输入 mi=13.358071408679686 , 图像→技术 mi=13.282935148449384 , 工程师→研究    mi=13.27173733429522 , 研究→工程师 mi=13.27173733429522 , 空间→效率  mi=13.190902012304125 , 要求→输出 mi=13.111411088981084 , 热门→方向 mi=12.944494458213805 , 处理→通信 mi=12.841818678179072 , 视觉→成为 mi=12.714560459866451 , 国外→专业 mi=12.572428360772808 , 先进→视频 mi=12.526081994436229 , 要求→计算机    mi=12.389690535977081 , 要求→本科 mi=12.380344673558843 , 必须→掌握 mi=12.24671879770809 , 通信→相关  mi=12.165228935836836 , 效率→完成 mi=12.083743841164328 , 国内→从事 mi=12.071213816581144 , 比较→先进 mi=11.981983504093982 , 非常→高端 mi=11.86521840455941 , 英语→要求  mi=11.810811448966076 , 要求→英语 mi=11.810811448966076 , 学历→要求 mi=11.758268935178092 , 检测→网络 mi=11.734742541984915 , 网络→优化 mi=11.661629198916572 , 同样→任务 mi=11.49343465524305 , 能够→规范  mi=11.407108191772982 , 完成→同样 mi=11.161508752418655 , 有限→时间 mi=11.12586208124467 , 研究→核心  mi=11.089281777838682 , 视频→处理 mi=11.071846563135924 , 语言→要求 mi=11.021158631197032 , 研究→方向 mi=10.792052628488372 , 研究→领域 mi=10.721316077396594 , 信息→领域 mi=10.600115878555613 , 不会→解决 mi=10.450339971063002 , 时间→空间 mi=10.42017817150674 , 相关→专业  mi=10.245521159175548 , 专业→要求 mi=10.161394002044698 , 可能→不同 mi=10.05098991326497 , 处理→方面  mi=9.975096016223532 , 技术→信息  mi=9.944380749660702 , 获得→要求  mi=9.9167883597784 , 技术→方面    mi=9.887995120015985 , 方向→发展  mi=9.70542076474947 , 时间→获得   mi=9.679388455467398 , 方面→信息  mi=9.58374685009418 , 不同→时间   mi=9.4573145712718 , 解决→问题    mi=9.184176537396961 ,

利用信息熵提取

熵这个术语表示随机变量不确定性的量度。具体表述如下: 一般地, 设X 是取有限个值的随机变量( 或者说X 是有限个离散事件的概率场) , X 取值x 的概率为P ( x ) , 则X 的熵定义为:

左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下:

具体计算方法是,以左熵为例,对一个串左边所有可能的词以及词频,计算信息熵,然后求和。

左熵
1
算法→工程师  le=1.6094379124341005 , 信息→算法 le=1.0986122886681096 , 处理→算法 le=1.0986122886681096 , 算法→处理 le=0.9502705392332347 , 算法→研究 le=0.6931471805599453 , 2D→3D le=0.0 , 3D→算法    le=0.0 , Algorithm→解决问题   le=0.0 , RRM→RTT  le=0.0 , 一维→信息    le=0.0 , 不会→解决    le=0.0 , 不同→时间    le=0.0 , 不同→算法    le=0.0 , 专业→书刊    le=0.0 , 专业→工程师   le=0.0 , 专业→要求    le=0.0 , 互联网→搜索   le=0.0 , 人工智能→方向  le=0.0 , 人脸识别→face    le=0.0 , 从事→算法    le=0.0 , 仿真→工具    le=0.0 , 优劣→空间    le=0.0 , 优化→信号    le=0.0 , 传送→领域    le=0.0 , 估计→运动    le=0.0 , 使用→仿真    le=0.0 , 信号→分解    le=0.0 , 信号→检测    le=0.0 , 信号处理→生物  le=0.0 , 信号处理→领域  le=0.0 , 信息→领域    le=0.0 , 信道→均衡    le=0.0 , 先进→视频    le=0.0 , 分辨率→算法   le=0.0 , 利用→算法    le=0.0 , 医学→信号处理  le=0.0 , 可能→不同    le=0.0 , 同样→任务    le=0.0 , 国内→从事    le=0.0 , 国内外→状况   le=0.0 , 国外→专业    le=0.0 , 图像→处理    le=0.0 , 图像→技术    le=0.0 , 图形图像→技术  le=0.0 , 均衡→信号    le=0.0 , 基带→算法    le=0.0 , 基本上→阅读   le=0.0 , 处理→事物    le=0.0 , 处理→图像    le=0.0 , 处理→方面    le=0.0 , 处理→通信    le=0.0 , 复杂度→时间   le=0.0 , 复杂度→衡量   le=0.0 , 学历→要求    le=0.0 , 完成→同样    le=0.0 , 工具→MATLAB    le=0.0 , 工程师→利用   le=0.0 , 工程师→图像   le=0.0 , 工程师→很少   le=0.0 , 工程师→研究   le=0.0 , 工程师→逐渐   le=0.0 , 工程师→非常   le=0.0 , 工程师→音频   le=0.0 , 常用→算法    le=0.0 , 当今→热门    le=0.0 , 必须→掌握    le=0.0 , 必须→编程语言  le=0.0 , 成为→当今    le=0.0 , 成为→算法    le=0.0 , 手势→识别    le=0.0 , 执行→算法    le=0.0 , 技术→信息    le=0.0 , 技术→方面    le=0.0 , 掌握→计算机相关 le=0.0 , 搜索→算法    le=0.0 , 效率→完成    le=0.0 , 数据挖掘→互联网 le=0.0 , 方向→发展    le=0.0 , 方面→信息    le=0.0 , 方面→目前    le=0.0 , 时间→复杂度   le=0.0 , 时间→空间    le=0.0 , 时间→获得    le=0.0 , 有限→时间    le=0.0 , 本科→学历    le=0.0 , 机器→视觉    le=0.0 , 检测→网络    le=0.0 , 比较→先进    le=0.0 , 清晰→指令    le=0.0 , 热门→方向    le=0.0 , 熟练→使用    le=0.0 , 物理层→信息   le=0.0 , 物理层→雷达   le=0.0 , 生物→医学    le=0.0 , 电子→通信    le=0.0 , 目前→国内    le=0.0 , 目前→国内外   le=0.0 , 目前→常用    le=0.0 , 目前→比较    le=0.0 , 相关→专业    le=0.0 , 研究→工程师   le=0.0 , 研究→方向    le=0.0 , 研究→核心    le=0.0 , 研究→领域    le=0.0 , 硕士→学历    le=0.0 , 空间→复杂度   le=0.0 , 空间→效率    le=0.0 , 算法→2D-to-3D  le=0.0 , 算法→Algorithm le=0.0 , 算法→Motion    le=0.0 , 算法→Noise le=0.0 , 算法→Sharpness le=0.0 , 算法→Super le=0.0 , 算法→de-interlacing    le=0.0 , 算法→scaling   le=0.0 , 算法→不会    le=0.0 , 算法→优劣    le=0.0 , 算法→可能    le=0.0 , 算法→成为    le=0.0 , 算法→有缺陷   le=0.0 , 算法→机器    le=0.0 , 算法→领域    le=0.0 , 紧缺→专业    le=0.0 , 缩放→算法    le=0.0 , 网络→优化    le=0.0 , 职位→简介    le=0.0 , 能够→规范    le=0.0 , 英语→要求    le=0.0 , 获得→要求    le=0.0 , 补偿→算法    le=0.0 , 要求→本科    le=0.0 , 要求→熟练    le=0.0 , 要求→英语    le=0.0 , 要求→计算机   le=0.0 , 要求→输出    le=0.0 , 规范→输入    le=0.0 , 视觉→成为    le=0.0 , 视频→图形图像  le=0.0 , 视频→处理    le=0.0 , 视频→算法    le=0.0 , 解决→问题    le=0.0 , 解决问题→清晰  le=0.0 , 解调→信道    le=0.0 , 计算机→电子   le=0.0 , 计算机→视频   le=0.0 , 计算机相关→知识 le=0.0 , 识别→gesture   le=0.0 , 语言→要求    le=0.0 , 调制→解调    le=0.0 , 运动→估计    le=0.0 , 运动→补偿    le=0.0 , 适合于→问题   le=0.0 , 逐渐→人工智能  le=0.0 , 通信→基带    le=0.0 , 通信→物理层   le=0.0 , 通信→相关    le=0.0 , 锐化→处理    le=0.0 , 阅读→国外    le=0.0 , 隔行→算法    le=0.0 , 雷达→信号处理  le=0.0 , 非常→紧缺    le=0.0 , 非常→高端    le=0.0 , 音频→算法    le=0.0 , 音频→视频    le=0.0 , 领域→RRM   le=0.0 , 领域→一维    le=0.0 , 领域→目前    le=0.0 , 领域→调制    le=0.0 , 领域→音频    le=0.0 , 高端→职位    le=0.0 , 高级→算法    le=0.0 ,
右熵
1
算法→工程师  re=1.945910149055313 , 算法→处理  re=1.3862943611198906 , 处理→算法 re=1.0986122886681096 , 算法→研究 re=0.6931471805599453 , 视频→算法 re=0.6931471805599453 , 通信→物理层    re=0.6931471805599453 , 2D→3D re=0.0 , 3D→算法    re=0.0 , Algorithm→解决问题   re=0.0 , RRM→RTT  re=0.0 , 一维→信息    re=0.0 , 不会→解决    re=0.0 , 不同→时间    re=0.0 , 不同→算法    re=0.0 , 专业→书刊    re=0.0 , 专业→工程师   re=0.0 , 专业→要求    re=0.0 , 互联网→搜索   re=0.0 , 人工智能→方向  re=0.0 , 人脸识别→face    re=0.0 , 从事→算法    re=0.0 , 仿真→工具    re=0.0 , 优劣→空间    re=0.0 , 优化→信号    re=0.0 , 传送→领域    re=0.0 , 估计→运动    re=0.0 , 使用→仿真    re=0.0 , 信号→分解    re=0.0 , 信号→检测    re=0.0 , 信号处理→生物  re=0.0 , 信号处理→领域  re=0.0 , 信息→算法    re=0.0 , 信息→领域    re=0.0 , 信道→均衡    re=0.0 , 先进→视频    re=0.0 , 分辨率→算法   re=0.0 , 利用→算法    re=0.0 , 医学→信号处理  re=0.0 , 可能→不同    re=0.0 , 同样→任务    re=0.0 , 国内→从事    re=0.0 , 国内外→状况   re=0.0 , 国外→专业    re=0.0 , 图像→处理    re=0.0 , 图像→技术    re=0.0 , 图形图像→技术  re=0.0 , 均衡→信号    re=0.0 , 基带→算法    re=0.0 , 基本上→阅读   re=0.0 , 处理→事物    re=0.0 , 处理→图像    re=0.0 , 处理→方面    re=0.0 , 处理→通信    re=0.0 , 复杂度→时间   re=0.0 , 复杂度→衡量   re=0.0 , 学历→要求    re=0.0 , 完成→同样    re=0.0 , 工具→MATLAB    re=0.0 , 工程师→利用   re=0.0 , 工程师→图像   re=0.0 , 工程师→很少   re=0.0 , 工程师→研究   re=0.0 , 工程师→逐渐   re=0.0 , 工程师→非常   re=0.0 , 工程师→音频   re=0.0 , 常用→算法    re=0.0 , 当今→热门    re=0.0 , 必须→掌握    re=0.0 , 必须→编程语言  re=0.0 , 成为→当今    re=0.0 , 成为→算法    re=0.0 , 手势→识别    re=0.0 , 执行→算法    re=0.0 , 技术→信息    re=0.0 , 技术→方面    re=0.0 , 掌握→计算机相关 re=0.0 , 搜索→算法    re=0.0 , 效率→完成    re=0.0 , 数据挖掘→互联网 re=0.0 , 方向→发展    re=0.0 , 方面→信息    re=0.0 , 方面→目前    re=0.0 , 时间→复杂度   re=0.0 , 时间→空间    re=0.0 , 时间→获得    re=0.0 , 有限→时间    re=0.0 , 本科→学历    re=0.0 , 机器→视觉    re=0.0 , 检测→网络    re=0.0 , 比较→先进    re=0.0 , 清晰→指令    re=0.0 , 热门→方向    re=0.0 , 熟练→使用    re=0.0 , 物理层→信息   re=0.0 , 物理层→雷达   re=0.0 , 生物→医学    re=0.0 , 电子→通信    re=0.0 , 目前→国内    re=0.0 , 目前→国内外   re=0.0 , 目前→常用    re=0.0 , 目前→比较    re=0.0 , 相关→专业    re=0.0 , 研究→工程师   re=0.0 , 研究→方向    re=0.0 , 研究→核心    re=0.0 , 研究→领域    re=0.0 , 硕士→学历    re=0.0 , 空间→复杂度   re=0.0 , 空间→效率    re=0.0 , 算法→2D-to-3D  re=0.0 , 算法→Algorithm re=0.0 , 算法→Motion    re=0.0 , 算法→Noise re=0.0 , 算法→Sharpness re=0.0 , 算法→Super re=0.0 , 算法→de-interlacing    re=0.0 , 算法→scaling   re=0.0 , 算法→不会    re=0.0 , 算法→优劣    re=0.0 , 算法→可能    re=0.0 , 算法→成为    re=0.0 , 算法→有缺陷   re=0.0 , 算法→机器    re=0.0 , 算法→领域    re=0.0 , 紧缺→专业    re=0.0 , 缩放→算法    re=0.0 , 网络→优化    re=0.0 , 职位→简介    re=0.0 , 能够→规范    re=0.0 , 英语→要求    re=0.0 , 获得→要求    re=0.0 , 补偿→算法    re=0.0 , 要求→本科    re=0.0 , 要求→熟练    re=0.0 , 要求→英语    re=0.0 , 要求→计算机   re=0.0 , 要求→输出    re=0.0 , 规范→输入    re=0.0 , 视觉→成为    re=0.0 , 视频→图形图像  re=0.0 , 视频→处理    re=0.0 , 解决→问题    re=0.0 , 解决问题→清晰  re=0.0 , 解调→信道    re=0.0 , 计算机→电子   re=0.0 , 计算机→视频   re=0.0 , 计算机相关→知识 re=0.0 , 识别→gesture   re=0.0 , 语言→要求    re=0.0 , 调制→解调    re=0.0 , 运动→估计    re=0.0 , 运动→补偿    re=0.0 , 适合于→问题   re=0.0 , 逐渐→人工智能  re=0.0 , 通信→基带    re=0.0 , 通信→相关    re=0.0 , 锐化→处理    re=0.0 , 阅读→国外    re=0.0 , 隔行→算法    re=0.0 , 雷达→信号处理  re=0.0 , 非常→紧缺    re=0.0 , 非常→高端    re=0.0 , 音频→算法    re=0.0 , 音频→视频    re=0.0 , 领域→RRM   re=0.0 , 领域→一维    re=0.0 , 领域→目前    re=0.0 , 领域→调制    re=0.0 , 领域→音频    re=0.0 , 高端→职位    re=0.0 , 高级→算法    re=0.0 ,

上面的结果中很多熵是0,说明它只有一种接续。

综合排序

我这里简单地将三者求和作为一个串可能成为短语的程度的度量,排序结果如下:

1
算法→工程师  score=23.631510656377284 , 通信→物理层 score=19.159871863013716 , 算法→处理  score=19.125497903771613 , 处理→算法  score=18.475331956988718 , 2D→3D  score=17.773577501893826 , 3D→算法  score=17.773577501893826 , Algorithm→解决问题 score=17.773577501893826 , RRM→RTT    score=17.773577501893826 , 人脸识别→face  score=17.773577501893826 , 信号处理→生物    score=17.773577501893826 , 信号处理→领域    score=17.773577501893826 , 信道→均衡  score=17.773577501893826 , 分辨率→算法 score=17.773577501893826 , 医学→信号处理    score=17.773577501893826 , 图形图像→技术    score=17.773577501893826 , 基带→算法  score=17.773577501893826 , 复杂度→衡量 score=17.773577501893826 , 工具→MATLAB  score=17.773577501893826 , 工程师→音频 score=17.773577501893826 , 常用→算法  score=17.773577501893826 , 当今→热门  score=17.773577501893826 , 必须→编程语言    score=17.773577501893826 , 掌握→计算机相关   score=17.773577501893826 , 方面→目前  score=17.773577501893826 , 物理层→信息 score=17.773577501893826 , 物理层→雷达 score=17.773577501893826 , 目前→国内  score=17.773577501893826 , 目前→国内外 score=17.773577501893826 , 目前→常用  score=17.773577501893826 , 目前→比较  score=17.773577501893826 , 空间→复杂度 score=17.773577501893826 , 算法→2D-to-3D    score=17.773577501893826 , 算法→Algorithm   score=17.773577501893826 , 算法→Motion  score=17.773577501893826 , 算法→Noise   score=17.773577501893826 , 算法→Sharpness   score=17.773577501893826 , 算法→Super   score=17.773577501893826 , 算法→de-interlacing  score=17.773577501893826 , 算法→scaling score=17.773577501893826 , 算法→优劣  score=17.773577501893826 , 算法→有缺陷 score=17.773577501893826 , 算法→机器  score=17.773577501893826 , 缩放→算法  score=17.773577501893826 , 视频→图形图像    score=17.773577501893826 , 解调→信道  score=17.773577501893826 , 计算机相关→知识   score=17.773577501893826 , 识别→gesture score=17.773577501893826 , 调制→解调  score=17.773577501893826 , 逐渐→人工智能    score=17.773577501893826 , 通信→基带  score=17.773577501893826 , 锐化→处理  score=17.773577501893826 , 隔行→算法  score=17.773577501893826 , 雷达→信号处理    score=17.773577501893826 , 音频→算法  score=17.773577501893826 , 领域→RRM score=17.773577501893826 , 领域→一维  score=17.773577501893826 , 领域→目前  score=17.773577501893826 , 数据挖掘→互联网   score=17.76783479832517 , 人工智能→方向 score=17.64699298816246 , 成为→当今   score=17.447830648481858 , 一维→信息  score=17.427203254470296 , 搜索→算法  score=17.40048039480975 , 视频→算法   score=17.2148052032426 , 补偿→算法    score=17.039852876555194 , 算法→研究  score=16.988787665375852 , 信息→算法  score=16.985370502191255 , 仿真→工具  score=16.855930038394266 , 专业→书刊  score=16.813755113343554 , 高级→算法  score=16.76332748360438 , 复杂度→时间  score=16.59729206550135 , 时间→复杂度  score=16.59729206550135 , 从事→算法   score=16.537942616447157 , 工程师→图像 score=16.489091534242924 , 优劣→空间  score=16.371669548523666 , 职位→简介  score=16.332923953498966 , 手势→识别  score=16.33209056224301 , 机器→视觉   score=16.24418363011743 , 音频→视频   score=16.190300886728213 , 领域→调制  score=16.189962075950792 , 领域→音频  score=16.109919368277254 , 清晰→指令  score=15.887228980567027 , 算法→领域  score=15.748129323671751 , 利用→算法  score=15.472717343811786 , 传送→领域  score=15.469415921202732 , 工程师→很少 score=15.416146992323391 , 解决问题→清晰    score=15.402357094854453 , 信号→分解  score=15.315660837081825 , 执行→算法  score=15.315397089223248 , 适合于→问题 score=15.263455710232483 , 本科→学历  score=15.237216595685506 , 不同→算法  score=15.212095654042672 , 算法→不会  score=15.143324782778633 , 紧缺→专业  score=15.129415892736336 , 硕士→学历  score=14.994726517425098 , 工程师→逐渐 score=14.860539225785507 , 均衡→信号  score=14.804835213315835 , 算法→可能  score=14.775053629193474 , 使用→仿真  score=14.638591646580268 , 基本上→阅读 score=14.608263078043468 , 成为→算法  score=14.52109124641482 , 算法→成为   score=14.52109124641482 , 非常→紧缺   score=14.479675164476351 , 生物→医学  score=14.457291784931144 , 计算机→电子 score=14.232128201751985 , 高端→职位  score=14.14096848884276 , 处理→事物   score=14.086852969302782 , 国内外→状况 score=14.081518802118406 , 专业→工程师 score=14.041166391103774 , 熟练→使用  score=13.971419952423584 , 阅读→国外  score=13.93646902195409 , 电子→通信   score=13.923539444480891 , 信号→检测  score=13.92308373278244 , 优化→信号   score=13.849970389714096 , 工程师→利用 score=13.835108554410988 , 计算机→视频 score=13.79942318658849 , 互联网→搜索  score=13.509389225422641 , 估计→运动  score=13.430195153106098 , 运动→估计  score=13.430195153106098 , 要求→熟练  score=13.420249361400176 , 运动→补偿  score=13.403207008388451 , 工程师→非常 score=13.391425662843787 , 图像→处理  score=13.370036044656933 , 处理→图像  score=13.370036044656933 , 规范→输入  score=13.358071408679686 , 图像→技术  score=13.282935148449384 , 工程师→研究 score=13.27173733429522 , 研究→工程师  score=13.27173733429522 , 空间→效率   score=13.190902012304125 , 要求→输出  score=13.111411088981084 , 热门→方向  score=12.944494458213805 , 处理→通信  score=12.841818678179072 , 视觉→成为  score=12.714560459866451 , 国外→专业  score=12.572428360772808 , 先进→视频  score=12.526081994436229 , 要求→计算机 score=12.389690535977081 , 要求→本科  score=12.380344673558843 , 必须→掌握  score=12.24671879770809 , 通信→相关   score=12.165228935836836 , 效率→完成  score=12.083743841164328 , 国内→从事  score=12.071213816581144 , 比较→先进  score=11.981983504093982 , 非常→高端  score=11.86521840455941 , 英语→要求   score=11.810811448966076 , 要求→英语  score=11.810811448966076 , 学历→要求  score=11.758268935178092 , 检测→网络  score=11.734742541984915 , 网络→优化  score=11.661629198916572 , 同样→任务  score=11.49343465524305 , 能够→规范   score=11.407108191772982 , 完成→同样  score=11.161508752418655 , 有限→时间  score=11.12586208124467 , 研究→核心   score=11.089281777838682 , 视频→处理  score=11.071846563135924 , 语言→要求  score=11.021158631197032 , 研究→方向  score=10.792052628488372 , 研究→领域  score=10.721316077396594 , 信息→领域  score=10.600115878555613 , 不会→解决  score=10.450339971063002 , 时间→空间  score=10.42017817150674 , 相关→专业   score=10.245521159175548 , 专业→要求  score=10.161394002044698 , 可能→不同  score=10.05098991326497 , 处理→方面   score=9.975096016223532 , 技术→信息   score=9.944380749660702 , 获得→要求   score=9.9167883597784 , 技术→方面 score=9.887995120015985 , 方向→发展   score=9.70542076474947 , 时间→获得    score=9.679388455467398 , 方面→信息   score=9.58374685009418 , 不同→时间    score=9.4573145712718 , 解决→问题 score=9.184176537396961 ,

取其前5个作为最终结果:

1
[算法工程师, 通信物理层, 算法处理, 处理算法, 2D3D]

效果勉勉强强吧。

Reference

《利用统计量和语言学规则提取多字词表达》

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于熵的 MRMR 算法和基于互信息的 MRMR 算法都是特征选择方法,但它们的计算方式不同。 基于熵的 MRMR 算法使用互信息和条件熵来衡量特征之间的相性和冗余性。具体来说,它首先计算每个特征与目标变量之间的互信息,然后计算已选特征与其他特征之间的条件熵,根据 MRMR 准则选择具有最大相性和最小冗余的特征。该算法的优点是能够减少特征之间的冗余,但计算复杂度较高,需要进行优化。 基于互信息的 MRMR 算法直接使用互信息来衡量特征之间的相性,而不考虑条件熵。该算法首先计算每对特征之间的互信息,然后根据 MRMR 准则选择具有最大相性和最小冗余的特征。与基于熵的 MRMR 算法相比,基于互信息的 MRMR 算法计算复杂度较低,但可能会保留一些冗余特征。 下面是一个简单的 MATLAB 代码示例,实现了基于互信息的 MRMR 算法: ```matlab function [selected_features, scores] = mrmr_mi(X, y, k) % X: 输入特征矩阵,每一行表示一个样本,每一列表示一个特征 % y: 目标变量向量,每个元素表示对应样本的类别或值 % k: 选择的特征数量 % selected_features: 选择的特征的索引 % scores: 特征的 MRMR 得分 n = size(X, 2); % 特征数量 selected_features = zeros(1, k); scores = zeros(1, k); % 计算每对特征之间的互信息 mi = zeros(n, n); for i = 1:n for j = 1:n mi(i, j) = mutual_info(X(:, i), X(:, j)); end end for i = 1:k if i == 1 % 选择与目标变量相性最大的特征 [~, idx] = max(mi(:, end)); selected_features(i) = idx; scores(i) = mi(idx, end); else % 计算已选特征与其他特征之间的互信息 mi_selected = mi(selected_features(1:i-1), :); % 计算 MRMR 得分 mrmr = mean(mi_selected, 1) - mi(:, end)'; % 排除已选特征,选择未选择的特征中 MRMR 得分最大的特征 mrmr(selected_features(1:i-1)) = -inf; [~, idx] = max(mrmr); selected_features(i) = idx; scores(i) = mrmr(idx); end end ``` 在这个例子中,我们定义了一个名为 mrmr_mi 的函数,该函数接收输入特征矩阵 X、目标变量向量 y 和选择的特征数量 k,返回选择的特征的索引和 MRMR 得分。我们首先计算每对特征之间的互信息,然后按照 MRMR 准则选择特征,直到选择了所需数量的特征为止。 需要注意的是,该算法也需要进行优化,以提高计算性能和选择最佳特征。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值