基于互信息和左右信息熵的短语提取识别

在中文语言处理领域,一项重要的任务就是提取中文短语,也即固定多字词表达串的识别。短语提取经常用于搜索引擎的自动推荐,新词识别等领域。本文主要实现了从陌生文本中自动发现固定短语,并给出原理和步骤

开源项目

本文代码已集成到HanLP中开源:http://www.hankcs.com/nlp/hanlp.html

测试数据

算法工程师

算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。算法工程师就是利用算法处理事物的人。

1职位简介

算法工程师是一个非常高端的职位;

专业要求:计算机、电子、通信、数学等相关专业;

学历要求:本科及其以上的学历,大多数是硕士学历及其以上;

语言要求:英语要求是熟练,基本上能阅读国外专业书刊;

必须掌握计算机相关知识,熟练使用仿真工具MATLAB等,必须会一门编程语言。

2研究方向

视频算法工程师、图像处理算法工程师、音频算法工程师 通信基带算法工程师

3目前国内外状况

目前国内从事算法研究的工程师不少,但是高级算法工程师却很少,是一个非常紧缺的专业工程师。算法工程师根据研究领域来分主要有音频/视频算法处理、图像技术方面的二维信息算法处理和通信物理层、雷达信号处理、生物医学信号处理等领域的一维信息算法处理。

在计算机音视频和图形图像技术等二维信息算法处理方面目前比较先进的视频处理算法:机器视觉成为此类算法研究的核心;另外还有2D转3D算法(2D-to-3D conversion),去隔行算法(de-interlacing),运动估计运动补偿算法(Motion estimation/Motion Compensation),去噪算法(Noise Reduction),缩放算法(scaling),锐化处理算法(Sharpness),超分辨率算法(Super Resolution),手势识别(gesture recognition),人脸识别(face recognition)。

在通信物理层等一维信息领域目前常用的算法:无线领域的RRM、RTT,传送领域的调制解调、信道均衡、信号检测、网络优化、信号分解等。

另外数据挖掘、互联网搜索算法也成为当今的热门方向。

算法工程师逐渐往人工智能方向发展。

我取百科中对“算法工程师”的定义,很明显这个短语应当被第一个提取出来,另外,一些固定表达也应当能够识别。

预处理

使用中文处理工具(我这里使用了自己写的HanLP)对其断句、分词、去除停用词,得到如下结果:


  
  
  1. [算法/n, 工程师/nnt]
  2. [算法/n, Algorithm/nx, 解决问题/v, 清晰/a, 指令/n]
  3. [也就是说/l]
  4. [能够/v, 规范/v, 输入/v]
  5. [有限/a, 时间/n, 获得/v, 要求/n, 输出/vn]
  6. [算法/n, 有缺陷/nz]
  7. [适合于/v, 问题/n]
  8. [执行/v, 算法/n, 不会/v, 解决/v, 问题/n]
  9. [不同/a, 算法/n, 可能/v, 不同/a, 时间/n, 空间/n, 效率/n, 完成/v, 同样/d, 任务/n]
  10. [算法/n, 优劣/n, 空间/n, 复杂度/nz, 时间/n, 复杂度/nz, 衡量/v]
  11. [算法/n, 工程师/nnt, 利用/v, 算法/n, 处理/vn, 事物/n]
  12. [职位/n, 简介/n]
  13. [算法/n, 工程师/nnt, 非常/d, 高端/nz, 职位/n]
  14. [专业/n, 要求/n, 计算机/n, 电子/n, 通信/vn, 相关/vn, 专业/n]
  15. [学历/n, 要求/n, 本科/n, 学历/n]
  16. [硕士/nnt, 学历/n]
  17. [语言/n, 要求/n, 英语/nz, 要求/n, 熟练/a]
  18. [基本上/d, 阅读/v, 国外/s, 专业/n, 书刊/n]
  19. [必须/d, 掌握/v, 计算机相关/n, 知识/n]
  20. [熟练/a, 使用/v, 仿真/vn, 工具/n, MATLAB/nx]
  21. [必须/d, 编程语言/gi]
  22. [研究/vn, 方向/n]
  23. [视频/n, 算法/n, 工程师/nnt, 图像/n, 处理/vn, 算法/n, 工程师/nnt, 音频/n, 算法/n, 工程师/nnt]
  24. [通信/vn, 基带/nz, 算法/n, 工程师/nnt]
  25. [目前/t, 国内外/s, 状况/n]
  26. [目前/t, 国内/s, 从事/vi, 算法/n, 研究/vn, 工程师/nnt]
  27. [高级/a, 算法/n, 工程师/nnt, 很少/ad]
  28. [非常/d, 紧缺/a, 专业/n, 工程师/nnt]
  29. [算法/n, 工程师/nnt, 研究/vn, 领域/n, 音频/n, 视频/n, 算法/n, 处理/vn, 图像/n, 技术/n, 方面/n, 信息/n, 算法/n, 处理/vn, 通信/vn, 物理层/gi, 雷达/n, 信号处理/gi, 生物/n, 医学/n, 信号处理/gi, 领域/n, 一维/n, 信息/n, 算法/n, 处理/vn]
  30. [计算机/n, 视频/n, 图形图像/nz, 技术/n, 信息/n, 算法/n, 处理/vn, 方面/n, 目前/t, 比较/d, 先进/a, 视频/n, 处理/vn, 算法/n, 机器/n, 视觉/n, 成为/v, 算法/n, 研究/vn, 核心/n]
  31. [2D/nx, 3D/nx, 算法/n, 2D-to-3D/nx]
  32. [conversion/nx]
  33. [隔行/gi, 算法/n, de-interlacing/nx]
  34. [运动/vn, 估计/v, 运动/vn, 补偿/vn, 算法/n, Motion/nx]
  35. [estimation/Motion/nx]
  36. [Compensation/nx]
  37. [算法/n, Noise/nx]
  38. [Reduction/nx]
  39. [缩放/gi, 算法/n, scaling/nx]
  40. [锐化/gi, 处理/vn, 算法/n, Sharpness/nx]
  41. [分辨率/n, 算法/n, Super/nx]
  42. [Resolution/nx]
  43. [手势/n, 识别/vn, gesture/nx]
  44. [recognition/nx]
  45. [人脸识别/nz, face/nx]
  46. [recognition/nx]
  47. [通信/vn, 物理层/gi, 信息/n, 领域/n, 目前/t, 常用/a, 算法/n, 领域/n, RRM/nx, RTT/nx]
  48. [传送/v, 领域/n, 调制/vn, 解调/vn, 信道/n, 均衡/a, 信号/n, 检测/vn, 网络/n, 优化/v, 信号/n, 分解/v]
  49. [数据挖掘/gi, 互联网/n, 搜索/vn, 算法/n, 成为/v, 当今/t, 热门/a, 方向/n]
  50. [算法/n, 工程师/nnt, 逐渐/d, 人工智能/n, 方向/n, 发展/vn]

统计词语共现

这里需要统计的共现频次有如下几种

一阶共现

也就是每个单词的词频。事实上,在我的实验结果中,光凭从文档中统计出来的词频不能反映一个词语在整个语言中的稀有程度,所以我使用外部词频词典。

二阶共现

也就是“算法→研究”这样的接续。

三阶共现

也就是二阶短语“算法→研究”后面的接续:算法→研究→工程师”。同时,为了接下来计算的方便,还需要统计二阶串“算法→研究”的前面可能的接续“从事→算法→研究”;在我的实现中,我使用了前缀树来储存词与词频,所以略微转个弯,记作“算法→研究←从事”。

统计结果

在这个例子中,所有的词频统计如下(词频列表比较长,点击跳过):


  
  
  1. 二阶共现:
  2.  
  3. 2D3D= tf=1
  4. 3D→算法= tf=1
  5. Algorithm→解决问题= tf=1
  6. RRMRTT= tf=1
  7. 一维→信息= tf=1
  8. 不会→解决= tf=1
  9. 不同→时间= tf=1
  10. 不同→算法= tf=1
  11. 专业→书刊= tf=1
  12. 专业→工程师= tf=1
  13. 专业→要求= tf=1
  14. 互联网→搜索= tf=1
  15. 人工智能→方向= tf=1
  16. 人脸识别→face= tf=1
  17. 从事→算法= tf=1
  18. 仿真→工具= tf=1
  19. 优劣→空间= tf=1
  20. 优化→信号= tf=1
  21. 传送→领域= tf=1
  22. 估计→运动= tf=1
  23. 使用→仿真= tf=1
  24. 信号→分解= tf=1
  25. 信号→检测= tf=1
  26. 信号处理→生物= tf=1
  27. 信号处理→领域= tf=1
  28. 信息→算法= tf=3
  29. 信息→领域= tf=1
  30. 信道→均衡= tf=1
  31. 先进→视频= tf=1
  32. 分辨率→算法= tf=1
  33. 利用→算法= tf=1
  34. 医学→信号处理= tf=1
  35. 可能→不同= tf=1
  36. 同样→任务= tf=1
  37. 国内→从事= tf=1
  38. 国内外→状况= tf=1
  39. 国外→专业= tf=1
  40. 图像→处理= tf=1
  41. 图像→技术= tf=1
  42. 图形图像→技术= tf=1
  43. 均衡→信号= tf=1
  44. 基带→算法= tf=1
  45. 基本上→阅读= tf=1
  46. 处理→事物= tf=1
  47. 处理→图像= tf=1
  48. 处理→方面= tf=1
  49. 处理→算法= tf=3
  50. 处理→通信= tf=1
  51. 复杂度→时间= tf=1
  52. 复杂度→衡量= tf=1
  53. 学历→要求= tf=1
  54. 完成→同样= tf=1
  55. 工具→MATLAB= tf=1
  56. 工程师→利用= tf=1
  57. 工程师→图像= tf=1
  58. 工程师→很少= tf=1
  59. 工程师→研究= tf=1
  60. 工程师→逐渐= tf=1
  61. 工程师→非常= tf=1
  62. 工程师→音频= tf=1
  63. 常用→算法= tf=1
  64. 当今→热门= tf=1
  65. 必须→掌握= tf=1
  66. 必须→编程语言= tf=1
  67. 成为→当今= tf=1
  68. 成为→算法= tf=1
  69. 手势→识别= tf=1
  70. 执行→算法= tf=1
  71. 技术→信息= tf=1
  72. 技术→方面= tf=1
  73. 掌握→计算机相关= tf=1
  74. 搜索→算法= tf=1
  75. 效率→完成= tf=1
  76. 数据挖掘→互联网= tf=1
  77. 方向→发展= tf=1
  78. 方面→信息= tf=1
  79. 方面→目前= tf=1
  80. 时间→复杂度= tf=1
  81. 时间→空间= tf=1
  82. 时间→获得= tf=1
  83. 有限→时间= tf=1
  84. 本科→学历= tf=1
  85. 机器→视觉= tf=1
  86. 检测→网络= tf=1
  87. 比较→先进= tf=1
  88. 清晰→指令= tf=1
  89. 热门→方向= tf=1
  90. 熟练→使用= tf=1
  91. 物理层→信息= tf=1
  92. 物理层→雷达= tf=1
  93. 生物→医学= tf=1
  94. 电子→通信= tf=1
  95. 目前→国内= tf=1
  96. 目前→国内外= tf=1
  97. 目前→常用= tf=1
  98. 目前→比较= tf=1
  99. 相关→专业= tf=1
  100. 研究→工程师= tf=1
  101. 研究→方向= tf=1
  102. 研究→核心= tf=1
  103. 研究→领域= tf=1
  104. 硕士→学历= tf=1
  105. 空间→复杂度= tf=1
  106. 空间→效率= tf=1
  107. 算法→2D-to-3D= tf=1
  108. 算法→Algorithm= tf=1
  109. 算法→Motion= tf=1
  110. 算法→Noise= tf=1
  111. 算法→Sharpness= tf=1
  112. 算法→Super= tf=1
  113. 算法→de-interlacing= tf=1
  114. 算法→scaling= tf=1
  115. 算法→不会= tf=1
  116. 算法→优劣= tf=1
  117. 算法→可能= tf=1
  118. 算法→处理= tf=5
  119. 算法→工程师= tf=10
  120. 算法→成为= tf=1
  121. 算法→有缺陷= tf=1
  122. 算法→机器= tf=1
  123. 算法→研究= tf=2
  124. 算法→领域= tf=1
  125. 紧缺→专业= tf=1
  126. 缩放→算法= tf=1
  127. 网络→优化= tf=1
  128. 职位→简介= tf=1
  129. 能够→规范= tf=1
  130. 英语→要求= tf=1
  131. 获得→要求= tf=1
  132. 补偿→算法= tf=1
  133. 要求→本科= tf=1
  134. 要求→熟练= tf=1
  135. 要求→英语= tf=1
  136. 要求→计算机= tf=1
  137. 要求→输出= tf=1
  138. 规范→输入= tf=1
  139. 视觉→成为= tf=1
  140. 视频→图形图像= tf=1
  141. 视频→处理= tf=1
  142. 视频→算法= tf=2
  143. 解决→问题= tf=1
  144. 解决问题→清晰= tf=1
  145. 解调→信道= tf=1
  146. 计算机→电子= tf=1
  147. 计算机→视频= tf=1
  148. 计算机相关→知识= tf=1
  149. 识别→gesture= tf=1
  150. 语言→要求= tf=1
  151. 调制→解调= tf=1
  152. 运动→估计= tf=1
  153. 运动→补偿= tf=1
  154. 适合于→问题= tf=1
  155. 逐渐→人工智能= tf=1
  156. 通信→基带= tf=1
  157. 通信→物理层= tf=2
  158. 通信→相关= tf=1
  159. 锐化→处理= tf=1
  160. 阅读→国外= tf=1
  161. 隔行→算法= tf=1
  162. 雷达→信号处理= tf=1
  163. 非常→紧缺= tf=1
  164. 非常→高端= tf=1
  165. 音频→算法= tf=1
  166. 音频→视频= tf=1
  167. 领域→RRM= tf=1
  168. 领域→一维= tf=1
  169. 领域→目前= tf=1
  170. 领域→调制= tf=1
  171. 领域→音频= tf=1
  172. 高端→职位= tf=1
  173. 高级→算法= tf=1
  174.  
  175. 三阶共现:
  176.  
  177. 2D3D→算法= tf=1
  178. 3D→算法→2D-to-3D= tf=1
  179. 3D→算法←2D= tf=1
  180. Algorithm→解决问题→清晰= tf=1
  181. Algorithm→解决问题←算法= tf=1
  182. RRMRTT←领域= tf=1
  183. 一维→信息→算法= tf=1
  184. 一维→信息←领域= tf=1
  185. 不会→解决→问题= tf=1
  186. 不会→解决←算法= tf=1
  187. 不同→时间→空间= tf=1
  188. 不同→时间←可能= tf=1
  189. 不同→算法→可能= tf=1
  190. 专业→书刊←国外= tf=1
  191. 专业→工程师←紧缺= tf=1
  192. 专业→要求→计算机= tf=1
  193. 互联网→搜索→算法= tf=1
  194. 互联网→搜索←数据挖掘= tf=1
  195. 人工智能→方向→发展= tf=1
  196. 人工智能→方向←逐渐= tf=1
  197. 从事→算法→研究= tf=1
  198. 从事→算法←国内= tf=1
  199. 仿真→工具→MATLAB= tf=1
  200. 仿真→工具←使用= tf=1
  201. 优劣→空间→复杂度= tf=1
  202. 优劣→空间←算法= tf=1
  203. 优化→信号→分解= tf=1
  204. 优化→信号←网络= tf=1
  205. 传送→领域→调制= tf=1
  206. 估计→运动→补偿= tf=1
  207. 估计→运动←运动= tf=1
  208. 使用→仿真→工具= tf=1
  209. 使用→仿真←熟练= tf=1
  210. 信号→分解←优化= tf=1
  211. 信号→检测→网络= tf=1
  212. 信号→检测←均衡= tf=1
  213. 信号处理→生物→医学= tf=1
  214. 信号处理→生物←雷达= tf=1
  215. 信号处理→领域→一维= tf=1
  216. 信号处理→领域←医学= tf=1
  217. 信息→算法→处理= tf=3
  218. 信息→算法←一维= tf=1
  219. 信息→算法←技术= tf=1
  220. 信息→算法←方面= tf=1
  221. 信息→领域→目前= tf=1
  222. 信息→领域←物理层= tf=1
  223. 信道→均衡→信号= tf=1
  224. 信道→均衡←解调= tf=1
  225. 先进→视频→处理= tf=1
  226. 先进→视频←比较= tf=1
  227. 分辨率→算法→Super= tf=1
  228. 利用→算法→处理= tf=1
  229. 利用→算法←工程师= tf=1
  230. 医学→信号处理→领域= tf=1
  231. 医学→信号处理←生物= tf=1
  232. 可能→不同→时间= tf=1
  233. 可能→不同←算法= tf=1
  234. 同样→任务←完成= tf=1
  235. 国内→从事→算法= tf=1
  236. 国内→从事←目前= tf=1
  237. 国内外→状况←目前= tf=1
  238. 国外→专业→书刊= tf=1
  239. 国外→专业←阅读= tf=1
  240. 图像→处理→算法= tf=1
  241. 图像→处理←工程师= tf=1
  242. 图像→技术→方面= tf=1
  243. 图像→技术←处理= tf=1
  244. 图形图像→技术→信息= tf=1
  245. 图形图像→技术←视频= tf=1
  246. 均衡→信号→检测= tf=1
  247. 均衡→信号←信道= tf=1
  248. 基带→算法→工程师= tf=1
  249. 基带→算法←通信= tf=1
  250. 基本上→阅读→国外= tf=1
  251. 处理→事物←算法= tf=1
  252. 处理→图像→技术= tf=1
  253. 处理→图像←算法= tf=1
  254. 处理→方面→目前= tf=1
  255. 处理→方面←算法= tf=1
  256. 处理→算法→Sharpness= tf=1
  257. 处理→算法→工程师= tf=1
  258. 处理→算法→机器= tf=1
  259. 处理→算法←图像= tf=1
  260. 处理→算法←视频= tf=1
  261. 处理→算法←锐化= tf=1
  262. 处理→通信→物理层= tf=1
  263. 处理→通信←算法= tf=1
  264. 复杂度→时间→复杂度= tf=1
  265. 复杂度→时间←空间= tf=1
  266. 复杂度→衡量←时间= tf=1
  267. 学历→要求→本科= tf=1
  268. 完成→同样→任务= tf=1
  269. 完成→同样←效率= tf=1
  270. 工具→MATLAB←仿真= tf=1
  271. 工程师→利用→算法= tf=1
  272. 工程师→利用←算法= tf=1
  273. 工程师→图像→处理= tf=1
  274. 工程师→图像←算法= tf=1
  275. 工程师→很少←算法= tf=1
  276. 工程师→研究→领域= tf=1
  277. 工程师→研究←算法= tf=1
  278. 工程师→逐渐→人工智能= tf=1
  279. 工程师→逐渐←算法= tf=1
  280. 工程师→非常→高端= tf=1
  281. 工程师→非常←算法= tf=1
  282. 工程师→音频→算法= tf=1
  283. 工程师→音频←算法= tf=1
  284. 常用→算法→领域= tf=1
  285. 常用→算法←目前= tf=1
  286. 当今→热门→方向= tf=1
  287. 当今→热门←成为= tf=1
  288. 必须→掌握→计算机相关= tf=1
  289. 成为→当今→热门= tf=1
  290. 成为→当今←算法= tf=1
  291. 成为→算法→研究= tf=1
  292. 成为→算法←视觉= tf=1
  293. 手势→识别→gesture= tf=1
  294. 执行→算法→不会= tf=1
  295. 技术→信息→算法= tf=1
  296. 技术→信息←图形图像= tf=1
  297. 技术→方面→信息= tf=1
  298. 技术→方面←图像= tf=1
  299. 掌握→计算机相关→知识= tf=1
  300. 掌握→计算机相关←必须= tf=1
  301. 搜索→算法→成为= tf=1
  302. 搜索→算法←互联网= tf=1
  303. 效率→完成→同样= tf=1
  304. 效率→完成←空间= tf=1
  305. 数据挖掘→互联网→搜索= tf=1
  306. 方向→发展←人工智能= tf=1
  307. 方面→信息→算法= tf=1
  308. 方面→信息←技术= tf=1
  309. 方面→目前→比较= tf=1
  310. 方面→目前←处理= tf=1
  311. 时间→复杂度→衡量= tf=1
  312. 时间→复杂度←复杂度= tf=1
  313. 时间→空间→效率= tf=1
  314. 时间→空间←不同= tf=1
  315. 时间→获得→要求= tf=1
  316. 时间→获得←有限= tf=1
  317. 有限→时间→获得= tf=1
  318. 本科→学历←要求= tf=1
  319. 机器→视觉→成为= tf=1
  320. 机器→视觉←算法= tf=1
  321. 检测→网络→优化= tf=1
  322. 检测→网络←信号= tf=1
  323. 比较→先进→视频= tf=1
  324. 比较→先进←目前= tf=1
  325. 清晰→指令←解决问题= tf=1
  326. 热门→方向←当今= tf=1
  327. 熟练→使用→仿真= tf=1
  328. 物理层→信息→领域= tf=1
  329. 物理层→信息←通信= tf=1
  330. 物理层→雷达→信号处理= tf=1
  331. 物理层→雷达←通信= tf=1
  332. 生物→医学→信号处理= tf=1
  333. 生物→医学←信号处理= tf=1
  334. 电子→通信→相关= tf=1
  335. 电子→通信←计算机= tf=1
  336. 目前→国内→从事= tf=1
  337. 目前→国内外→状况= tf=1
  338. 目前→常用→算法= tf=1
  339. 目前→常用←领域= tf=1
  340. 目前→比较→先进= tf=1
  341. 目前→比较←方面= tf=1
  342. 相关→专业←通信= tf=1
  343. 研究→工程师←算法= tf=1
  344. 研究→核心←算法= tf=1
  345. 研究→领域→音频= tf=1
  346. 研究→领域←工程师= tf=1
  347. 空间→复杂度→时间= tf=1
  348. 空间→复杂度←优劣= tf=1
  349. 空间→效率→完成= tf=1
  350. 空间→效率←时间= tf=1
  351. 算法→2D-to-3D3D= tf=1
  352. 算法→Algorithm→解决问题= tf=1
  353. 算法→Motion←补偿= tf=1
  354. 算法→Sharpness←处理= tf=1
  355. 算法→Super←分辨率= tf=1
  356. 算法→de-interlacing←隔行= tf=1
  357. 算法→scaling←缩放= tf=1
  358. 算法→不会→解决= tf=1
  359. 算法→不会←执行= tf=1
  360. 算法→优劣→空间= tf=1
  361. 算法→可能→不同= tf=1
  362. 算法→可能←不同= tf=1
  363. 算法→处理→事物= tf=1
  364. 算法→处理→图像= tf=1
  365. 算法→处理→方面= tf=1
  366. 算法→处理→通信= tf=1
  367. 算法→处理←信息= tf=3
  368. 算法→处理←利用= tf=1
  369. 算法→处理←视频= tf=1
  370. 算法→工程师→利用= tf=1
  371. 算法→工程师→图像= tf=1
  372. 算法→工程师→很少= tf=1
  373. 算法→工程师→研究= tf=1
  374. 算法→工程师→逐渐= tf=1
  375. 算法→工程师→非常= tf=1
  376. 算法→工程师→音频= tf=1
  377. 算法→工程师←基带= tf=1
  378. 算法→工程师←处理= tf=1
  379. 算法→工程师←视频= tf=1
  380. 算法→工程师←音频= tf=1
  381. 算法→工程师←高级= tf=1
  382. 算法→成为→当今= tf=1
  383. 算法→成为←搜索= tf=1
  384. 算法→机器→视觉= tf=1
  385. 算法→机器←处理= tf=1
  386. 算法→研究→工程师= tf=1
  387. 算法→研究→核心= tf=1
  388. 算法→研究←从事= tf=1
  389. 算法→研究←成为= tf=1
  390. 算法→领域→RRM= tf=1
  391. 算法→领域←常用= tf=1
  392. 紧缺→专业→工程师= tf=1
  393. 紧缺→专业←非常= tf=1
  394. 缩放→算法→scaling= tf=1
  395. 网络→优化→信号= tf=1
  396. 网络→优化←检测= tf=1
  397. 能够→规范→输入= tf=1
  398. 英语→要求→熟练= tf=1
  399. 英语→要求←要求= tf=1
  400. 获得→要求→输出= tf=1
  401. 获得→要求←时间= tf=1
  402. 补偿→算法→Motion= tf=1
  403. 补偿→算法←运动= tf=1
  404. 要求→本科→学历= tf=1
  405. 要求→本科←学历= tf=1
  406. 要求→熟练←英语= tf=1
  407. 要求→英语→要求= tf=1
  408. 要求→英语←语言= tf=1
  409. 要求→计算机→电子= tf=1
  410. 要求→计算机←专业= tf=1
  411. 要求→输出←获得= tf=1
  412. 规范→输入←能够= tf=1
  413. 视觉→成为→算法= tf=1
  414. 视觉→成为←机器= tf=1
  415. 视频→图形图像→技术= tf=1
  416. 视频→图形图像←计算机= tf=1
  417. 视频→处理→算法= tf=1
  418. 视频→处理←先进= tf=1
  419. 视频→算法→处理= tf=1
  420. 视频→算法→工程师= tf=1
  421. 视频→算法←音频= tf=1
  422. 解决→问题←不会= tf=1
  423. 解决问题→清晰→指令= tf=1
  424. 解决问题→清晰←Algorithm= tf=1
  425. 解调→信道→均衡= tf=1
  426. 解调→信道←调制= tf=1
  427. 计算机→电子→通信= tf=1
  428. 计算机→电子←要求= tf=1
  429. 计算机→视频→图形图像= tf=1
  430. 计算机相关→知识←掌握= tf=1
  431. 识别→gesture←手势= tf=1
  432. 语言→要求→英语= tf=1
  433. 调制→解调→信道= tf=1
  434. 调制→解调←领域= tf=1
  435. 运动→估计→运动= tf=1
  436. 运动→补偿→算法= tf=1
  437. 运动→补偿←估计= tf=1
  438. 逐渐→人工智能→方向= tf=1
  439. 逐渐→人工智能←工程师= tf=1
  440. 通信→基带→算法= tf=1
  441. 通信→物理层→信息= tf=1
  442. 通信→物理层→雷达= tf=1
  443. 通信→物理层←处理= tf=1
  444. 通信→相关→专业= tf=1
  445. 通信→相关←电子= tf=1
  446. 锐化→处理→算法= tf=1
  447. 阅读→国外→专业= tf=1
  448. 阅读→国外←基本上= tf=1
  449. 隔行→算法→de-interlacing= tf=1
  450. 雷达→信号处理→生物= tf=1
  451. 雷达→信号处理←物理层= tf=1
  452. 非常→紧缺→专业= tf=1
  453. 非常→高端→职位= tf=1
  454. 非常→高端←工程师= tf=1
  455. 音频→算法→工程师= tf=1
  456. 音频→算法←工程师= tf=1
  457. 音频→视频→算法= tf=1
  458. 音频→视频←领域= tf=1
  459. 领域→RRMRTT= tf=1
  460. 领域→RRM←算法= tf=1
  461. 领域→一维→信息= tf=1
  462. 领域→一维←信号处理= tf=1
  463. 领域→目前→常用= tf=1
  464. 领域→目前←信息= tf=1
  465. 领域→调制→解调= tf=1
  466. 领域→调制←传送= tf=1
  467. 领域→音频→视频= tf=1
  468. 领域→音频←研究= tf=1
  469. 高端→职位←非常= tf=1
  470. 高级→算法→工程师= tf=1

提取短语

利用互信息提取

互信息体现了两个变量之间的相互依赖程度。二元互信息是指两个事件相关性的量(论文给出如下定义):

互信息值越高, 表明X和Y相关性越高, 则X和Y 组成短语的可能性越大; 反之, 互信息值越低,X 和Y之间相关性越低, 则X 和Y之间存在短语边界的可能性越大。

公式中的X和Y指的是两个相邻的单词,P值是它的出现概率。

具体到这个例子,“算法→研究”一共出现了2次,而二阶短语一共有191个,所以上式的P(X,Y)= 2 / 191。同理可以求出P(X)P(Y)。

如此,可以对所有二阶短语计算互信息,排序后得出短语以及其mi值,以及它们的互信息的值,输出如下:


  
  
  1. 算法→工程师 mi=20.076162594887872 , 通信→物理层 mi=18.466724682453773 , 2D3D mi=17.773577501893826 , 3D→算法 mi=17.773577501893826 , Algorithm→解决问题 mi=17.773577501893826 , RRMRTT mi=17.773577501893826 , 人脸识别→face mi=17.773577501893826 , 信号处理→生物 mi=17.773577501893826 , 信号处理→领域 mi=17.773577501893826 , 信道→均衡 mi=17.773577501893826 , 分辨率→算法 mi=17.773577501893826 , 医学→信号处理 mi=17.773577501893826 , 图形图像→技术 mi=17.773577501893826 , 基带→算法 mi=17.773577501893826 , 复杂度→衡量 mi=17.773577501893826 , 工具→MATLAB mi=17.773577501893826 , 工程师→音频 mi=17.773577501893826 , 常用→算法 mi=17.773577501893826 , 当今→热门 mi=17.773577501893826 , 必须→编程语言 mi=17.773577501893826 , 掌握→计算机相关 mi=17.773577501893826 , 方面→目前 mi=17.773577501893826 , 物理层→信息 mi=17.773577501893826 , 物理层→雷达 mi=17.773577501893826 , 目前→国内 mi=17.773577501893826 , 目前→国内外 mi=17.773577501893826 , 目前→常用 mi=17.773577501893826 , 目前→比较 mi=17.773577501893826 , 空间→复杂度 mi=17.773577501893826 , 算法→2D-to-3D mi=17.773577501893826 , 算法→Algorithm mi=17.773577501893826 , 算法→Motion mi=17.773577501893826 , 算法→Noise mi=17.773577501893826 , 算法→Sharpness mi=17.773577501893826 , 算法→Super mi=17.773577501893826 , 算法→de-interlacing mi=17.773577501893826 , 算法→scaling mi=17.773577501893826 , 算法→优劣 mi=17.773577501893826 , 算法→有缺陷 mi=17.773577501893826 , 算法→机器 mi=17.773577501893826 , 缩放→算法 mi=17.773577501893826 , 视频→图形图像 mi=17.773577501893826 , 解调→信道 mi=17.773577501893826 , 计算机相关→知识 mi=17.773577501893826 , 识别→gesture mi=17.773577501893826 , 调制→解调 mi=17.773577501893826 , 逐渐→人工智能 mi=17.773577501893826 , 通信→基带 mi=17.773577501893826 , 锐化→处理 mi=17.773577501893826 , 隔行→算法 mi=17.773577501893826 , 雷达→信号处理 mi=17.773577501893826 , 音频→算法 mi=17.773577501893826 , 领域→RRM mi=17.773577501893826 , 领域→一维 mi=17.773577501893826 , 领域→目前 mi=17.773577501893826 , 数据挖掘→互联网 mi=17.76783479832517 , 人工智能→方向 mi=17.64699298816246 , 成为→当今 mi=17.447830648481858 , 一维→信息 mi=17.427203254470296 , 搜索→算法 mi=17.40048039480975 , 补偿→算法 mi=17.039852876555194 , 仿真→工具 mi=16.855930038394266 , 专业→书刊 mi=16.813755113343554 , 算法→处理 mi=16.78893300341849 , 高级→算法 mi=16.76332748360438 , 复杂度→时间 mi=16.59729206550135 , 时间→复杂度 mi=16.59729206550135 , 从事→算法 mi=16.537942616447157 , 视频→算法 mi=16.521658022682658 , 工程师→图像 mi=16.489091534242924 , 优劣→空间 mi=16.371669548523666 , 职位→简介 mi=16.332923953498966 , 手势→识别 mi=16.33209056224301 , 处理→算法 mi=16.278107379652496 , 机器→视觉 mi=16.24418363011743 , 音频→视频 mi=16.190300886728213 , 领域→调制 mi=16.189962075950792 , 领域→音频 mi=16.109919368277254 , 清晰→指令 mi=15.887228980567027 , 信息→算法 mi=15.886758213523146 , 算法→领域 mi=15.748129323671751 , 算法→研究 mi=15.602493304255963 , 利用→算法 mi=15.472717343811786 , 传送→领域 mi=15.469415921202732 , 工程师→很少 mi=15.416146992323391 , 解决问题→清晰 mi=15.402357094854453 , 信号→分解 mi=15.315660837081825 , 执行→算法 mi=15.315397089223248 , 适合于→问题 mi=15.263455710232483 , 本科→学历 mi=15.237216595685506 , 不同→算法 mi=15.212095654042672 , 算法→不会 mi=15.143324782778633 , 紧缺→专业 mi=15.129415892736336 , 硕士→学历 mi=14.994726517425098 , 工程师→逐渐 mi=14.860539225785507 , 均衡→信号 mi=14.804835213315835 , 算法→可能 mi=14.775053629193474 , 使用→仿真 mi=14.638591646580268 , 基本上→阅读 mi=14.608263078043468 , 成为→算法 mi=14.52109124641482 , 算法→成为 mi=14.52109124641482 , 非常→紧缺 mi=14.479675164476351 , 生物→医学 mi=14.457291784931144 , 计算机→电子 mi=14.232128201751985 , 高端→职位 mi=14.14096848884276 , 处理→事物 mi=14.086852969302782 , 国内外→状况 mi=14.081518802118406 , 专业→工程师 mi=14.041166391103774 , 熟练→使用 mi=13.971419952423584 , 阅读→国外 mi=13.93646902195409 , 电子→通信 mi=13.923539444480891 , 信号→检测 mi=13.92308373278244 , 优化→信号 mi=13.849970389714096 , 工程师→利用 mi=13.835108554410988 , 计算机→视频 mi=13.79942318658849 , 互联网→搜索 mi=13.509389225422641 , 估计→运动 mi=13.430195153106098 , 运动→估计 mi=13.430195153106098 , 要求→熟练 mi=13.420249361400176 , 运动→补偿 mi=13.403207008388451 , 工程师→非常 mi=13.391425662843787 , 图像→处理 mi=13.370036044656933 , 处理→图像 mi=13.370036044656933 , 规范→输入 mi=13.358071408679686 , 图像→技术 mi=13.282935148449384 , 工程师→研究 mi=13.27173733429522 , 研究→工程师 mi=13.27173733429522 , 空间→效率 mi=13.190902012304125 , 要求→输出 mi=13.111411088981084 , 热门→方向 mi=12.944494458213805 , 处理→通信 mi=12.841818678179072 , 视觉→成为 mi=12.714560459866451 , 国外→专业 mi=12.572428360772808 , 先进→视频 mi=12.526081994436229 , 要求→计算机 mi=12.389690535977081 , 要求→本科 mi=12.380344673558843 , 必须→掌握 mi=12.24671879770809 , 通信→相关 mi=12.165228935836836 , 效率→完成 mi=12.083743841164328 , 国内→从事 mi=12.071213816581144 , 比较→先进 mi=11.981983504093982 , 非常→高端 mi=11.86521840455941 , 英语→要求 mi=11.810811448966076 , 要求→英语 mi=11.810811448966076 , 学历→要求 mi=11.758268935178092 , 检测→网络 mi=11.734742541984915 , 网络→优化 mi=11.661629198916572 , 同样→任务 mi=11.49343465524305 , 能够→规范 mi=11.407108191772982 , 完成→同样 mi=11.161508752418655 , 有限→时间 mi=11.12586208124467 , 研究→核心 mi=11.089281777838682 , 视频→处理 mi=11.071846563135924 , 语言→要求 mi=11.021158631197032 , 研究→方向 mi=10.792052628488372 , 研究→领域 mi=10.721316077396594 , 信息→领域 mi=10.600115878555613 , 不会→解决 mi=10.450339971063002 , 时间→空间 mi=10.42017817150674 , 相关→专业 mi=10.245521159175548 , 专业→要求 mi=10.161394002044698 , 可能→不同 mi=10.05098991326497 , 处理→方面 mi=9.975096016223532 , 技术→信息 mi=9.944380749660702 , 获得→要求 mi=9.9167883597784 , 技术→方面 mi=9.887995120015985 , 方向→发展 mi=9.70542076474947 , 时间→获得 mi=9.679388455467398 , 方面→信息 mi=9.58374685009418 , 不同→时间 mi=9.4573145712718 , 解决→问题 mi=9.184176537396961 ,

利用信息熵提取

熵这个术语表示随机变量不确定性的量度。具体表述如下: 一般地, 设X 是取有限个值的随机变量( 或者说X 是有限个离散事件的概率场) , X 取值x 的概率为P ( x ) , 则X 的熵定义为:

左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下:

具体计算方法是,以左熵为例,对一个串左边所有可能的词以及词频,计算信息熵,然后求和。

左熵

  
  
  1. 算法→工程师 le=1.6094379124341005 , 信息→算法 le=1.0986122886681096 , 处理→算法 le=1.0986122886681096 , 算法→处理 le=0.9502705392332347 , 算法→研究 le=0.6931471805599453 , 2D3D le=0.0 , 3D→算法 le=0.0 , Algorithm→解决问题 le=0.0 , RRMRTT le=0.0 , 一维→信息 le=0.0 , 不会→解决 le=0.0 , 不同→时间 le=0.0 , 不同→算法 le=0.0 , 专业→书刊 le=0.0 , 专业→工程师 le=0.0 , 专业→要求 le=0.0 , 互联网→搜索 le=0.0 , 人工智能→方向 le=0.0 , 人脸识别→face le=0.0 , 从事→算法 le=0.0 , 仿真→工具 le=0.0 , 优劣→空间 le=0.0 , 优化→信号 le=0.0 , 传送→领域 le=0.0 , 估计→运动 le=0.0 , 使用→仿真 le=0.0 , 信号→分解 le=0.0 , 信号→检测 le=0.0 , 信号处理→生物 le=0.0 , 信号处理→领域 le=0.0 , 信息→领域 le=0.0 , 信道→均衡 le=0.0 , 先进→视频 le=0.0 , 分辨率→算法 le=0.0 , 利用→算法 le=0.0 , 医学→信号处理 le=0.0 , 可能→不同 le=0.0 , 同样→任务 le=0.0 , 国内→从事 le=0.0 , 国内外→状况 le=0.0 , 国外→专业 le=0.0 , 图像→处理 le=0.0 , 图像→技术 le=0.0 , 图形图像→技术 le=0.0 , 均衡→信号 le=0.0 , 基带→算法 le=0.0 , 基本上→阅读 le=0.0 , 处理→事物 le=0.0 , 处理→图像 le=0.0 , 处理→方面 le=0.0 , 处理→通信 le=0.0 , 复杂度→时间 le=0.0 , 复杂度→衡量 le=0.0 , 学历→要求 le=0.0 , 完成→同样 le=0.0 , 工具→MATLAB le=0.0 , 工程师→利用 le=0.0 , 工程师→图像 le=0.0 , 工程师→很少 le=0.0 , 工程师→研究 le=0.0 , 工程师→逐渐 le=0.0 , 工程师→非常 le=0.0 , 工程师→音频 le=0.0 , 常用→算法 le=0.0 , 当今→热门 le=0.0 , 必须→掌握 le=0.0 , 必须→编程语言 le=0.0 , 成为→当今 le=0.0 , 成为→算法 le=0.0 , 手势→识别 le=0.0 , 执行→算法 le=0.0 , 技术→信息 le=0.0 , 技术→方面 le=0.0 , 掌握→计算机相关 le=0.0 , 搜索→算法 le=0.0 , 效率→完成 le=0.0 , 数据挖掘→互联网 le=0.0 , 方向→发展 le=0.0 , 方面→信息 le=0.0 , 方面→目前 le=0.0 , 时间→复杂度 le=0.0 , 时间→空间 le=0.0 , 时间→获得 le=0.0 , 有限→时间 le=0.0 , 本科→学历 le=0.0 , 机器→视觉 le=0.0 , 检测→网络 le=0.0 , 比较→先进 le=0.0 , 清晰→指令 le=0.0 , 热门→方向 le=0.0 , 熟练→使用 le=0.0 , 物理层→信息 le=0.0 , 物理层→雷达 le=0.0 , 生物→医学 le=0.0 , 电子→通信 le=0.0 , 目前→国内 le=0.0 , 目前→国内外 le=0.0 , 目前→常用 le=0.0 , 目前→比较 le=0.0 , 相关→专业 le=0.0 , 研究→工程师 le=0.0 , 研究→方向 le=0.0 , 研究→核心 le=0.0 , 研究→领域 le=0.0 , 硕士→学历 le=0.0 , 空间→复杂度 le=0.0 , 空间→效率 le=0.0 , 算法→2D-to-3D le=0.0 , 算法→Algorithm le=0.0 , 算法→Motion le=0.0 , 算法→Noise le=0.0 , 算法→Sharpness le=0.0 , 算法→Super le=0.0 , 算法→de-interlacing le=0.0 , 算法→scaling le=0.0 , 算法→不会 le=0.0 , 算法→优劣 le=0.0 , 算法→可能 le=0.0 , 算法→成为 le=0.0 , 算法→有缺陷 le=0.0 , 算法→机器 le=0.0 , 算法→领域 le=0.0 , 紧缺→专业 le=0.0 , 缩放→算法 le=0.0 , 网络→优化 le=0.0 , 职位→简介 le=0.0 , 能够→规范 le=0.0 , 英语→要求 le=0.0 , 获得→要求 le=0.0 , 补偿→算法 le=0.0 , 要求→本科 le=0.0 , 要求→熟练 le=0.0 , 要求→英语 le=0.0 , 要求→计算机 le=0.0 , 要求→输出 le=0.0 , 规范→输入 le=0.0 , 视觉→成为 le=0.0 , 视频→图形图像 le=0.0 , 视频→处理 le=0.0 , 视频→算法 le=0.0 , 解决→问题 le=0.0 , 解决问题→清晰 le=0.0 , 解调→信道 le=0.0 , 计算机→电子 le=0.0 , 计算机→视频 le=0.0 , 计算机相关→知识 le=0.0 , 识别→gesture le=0.0 , 语言→要求 le=0.0 , 调制→解调 le=0.0 , 运动→估计 le=0.0 , 运动→补偿 le=0.0 , 适合于→问题 le=0.0 , 逐渐→人工智能 le=0.0 , 通信→基带 le=0.0 , 通信→物理层 le=0.0 , 通信→相关 le=0.0 , 锐化→处理 le=0.0 , 阅读→国外 le=0.0 , 隔行→算法 le=0.0 , 雷达→信号处理 le=0.0 , 非常→紧缺 le=0.0 , 非常→高端 le=0.0 , 音频→算法 le=0.0 , 音频→视频 le=0.0 , 领域→RRM le=0.0 , 领域→一维 le=0.0 , 领域→目前 le=0.0 , 领域→调制 le=0.0 , 领域→音频 le=0.0 , 高端→职位 le=0.0 , 高级→算法 le=0.0 ,
右熵

  
  
  1. 算法→工程师 re=1.945910149055313 , 算法→处理 re=1.3862943611198906 , 处理→算法 re=1.0986122886681096 , 算法→研究 re=0.6931471805599453 , 视频→算法 re=0.6931471805599453 , 通信→物理层 re=0.6931471805599453 , 2D3D re=0.0 , 3D→算法 re=0.0 , Algorithm→解决问题 re=0.0 , RRMRTT re=0.0 , 一维→信息 re=0.0 , 不会→解决 re=0.0 , 不同→时间 re=0.0 , 不同→算法 re=0.0 , 专业→书刊 re=0.0 , 专业→工程师 re=0.0 , 专业→要求 re=0.0 , 互联网→搜索 re=0.0 , 人工智能→方向 re=0.0 , 人脸识别→face re=0.0 , 从事→算法 re=0.0 , 仿真→工具 re=0.0 , 优劣→空间 re=0.0 , 优化→信号 re=0.0 , 传送→领域 re=0.0 , 估计→运动 re=0.0 , 使用→仿真 re=0.0 , 信号→分解 re=0.0 , 信号→检测 re=0.0 , 信号处理→生物 re=0.0 , 信号处理→领域 re=0.0 , 信息→算法 re=0.0 , 信息→领域 re=0.0 , 信道→均衡 re=0.0 , 先进→视频 re=0.0 , 分辨率→算法 re=0.0 , 利用→算法 re=0.0 , 医学→信号处理 re=0.0 , 可能→不同 re=0.0 , 同样→任务 re=0.0 , 国内→从事 re=0.0 , 国内外→状况 re=0.0 , 国外→专业 re=0.0 , 图像→处理 re=0.0 , 图像→技术 re=0.0 , 图形图像→技术 re=0.0 , 均衡→信号 re=0.0 , 基带→算法 re=0.0 , 基本上→阅读 re=0.0 , 处理→事物 re=0.0 , 处理→图像 re=0.0 , 处理→方面 re=0.0 , 处理→通信 re=0.0 , 复杂度→时间 re=0.0 , 复杂度→衡量 re=0.0 , 学历→要求 re=0.0 , 完成→同样 re=0.0 , 工具→MATLAB re=0.0 , 工程师→利用 re=0.0 , 工程师→图像 re=0.0 , 工程师→很少 re=0.0 , 工程师→研究 re=0.0 , 工程师→逐渐 re=0.0 , 工程师→非常 re=0.0 , 工程师→音频 re=0.0 , 常用→算法 re=0.0 , 当今→热门 re=0.0 , 必须→掌握 re=0.0 , 必须→编程语言 re=0.0 , 成为→当今 re=0.0 , 成为→算法 re=0.0 , 手势→识别 re=0.0 , 执行→算法 re=0.0 , 技术→信息 re=0.0 , 技术→方面 re=0.0 , 掌握→计算机相关 re=0.0 , 搜索→算法 re=0.0 , 效率→完成 re=0.0 , 数据挖掘→互联网 re=0.0 , 方向→发展 re=0.0 , 方面→信息 re=0.0 , 方面→目前 re=0.0 , 时间→复杂度 re=0.0 , 时间→空间 re=0.0 , 时间→获得 re=0.0 , 有限→时间 re=0.0 , 本科→学历 re=0.0 , 机器→视觉 re=0.0 , 检测→网络 re=0.0 , 比较→先进 re=0.0 , 清晰→指令 re=0.0 , 热门→方向 re=0.0 , 熟练→使用 re=0.0 , 物理层→信息 re=0.0 , 物理层→雷达 re=0.0 , 生物→医学 re=0.0 , 电子→通信 re=0.0 , 目前→国内 re=0.0 , 目前→国内外 re=0.0 , 目前→常用 re=0.0 , 目前→比较 re=0.0 , 相关→专业 re=0.0 , 研究→工程师 re=0.0 , 研究→方向 re=0.0 , 研究→核心 re=0.0 , 研究→领域 re=0.0 , 硕士→学历 re=0.0 , 空间→复杂度 re=0.0 , 空间→效率 re=0.0 , 算法→2D-to-3D re=0.0 , 算法→Algorithm re=0.0 , 算法→Motion re=0.0 , 算法→Noise re=0.0 , 算法→Sharpness re=0.0 , 算法→Super re=0.0 , 算法→de-interlacing re=0.0 , 算法→scaling re=0.0 , 算法→不会 re=0.0 , 算法→优劣 re=0.0 , 算法→可能 re=0.0 , 算法→成为 re=0.0 , 算法→有缺陷 re=0.0 , 算法→机器 re=0.0 , 算法→领域 re=0.0 , 紧缺→专业 re=0.0 , 缩放→算法 re=0.0 , 网络→优化 re=0.0 , 职位→简介 re=0.0 , 能够→规范 re=0.0 , 英语→要求 re=0.0 , 获得→要求 re=0.0 , 补偿→算法 re=0.0 , 要求→本科 re=0.0 , 要求→熟练 re=0.0 , 要求→英语 re=0.0 , 要求→计算机 re=0.0 , 要求→输出 re=0.0 , 规范→输入 re=0.0 , 视觉→成为 re=0.0 , 视频→图形图像 re=0.0 , 视频→处理 re=0.0 , 解决→问题 re=0.0 , 解决问题→清晰 re=0.0 , 解调→信道 re=0.0 , 计算机→电子 re=0.0 , 计算机→视频 re=0.0 , 计算机相关→知识 re=0.0 , 识别→gesture re=0.0 , 语言→要求 re=0.0 , 调制→解调 re=0.0 , 运动→估计 re=0.0 , 运动→补偿 re=0.0 , 适合于→问题 re=0.0 , 逐渐→人工智能 re=0.0 , 通信→基带 re=0.0 , 通信→相关 re=0.0 , 锐化→处理 re=0.0 , 阅读→国外 re=0.0 , 隔行→算法 re=0.0 , 雷达→信号处理 re=0.0 , 非常→紧缺 re=0.0 , 非常→高端 re=0.0 , 音频→算法 re=0.0 , 音频→视频 re=0.0 , 领域→RRM re=0.0 , 领域→一维 re=0.0 , 领域→目前 re=0.0 , 领域→调制 re=0.0 , 领域→音频 re=0.0 , 高端→职位 re=0.0 , 高级→算法 re=0.0 ,

上面的结果中很多熵是0,说明它只有一种接续。

综合排序

我这里简单地将三者求和作为一个串可能成为短语的程度的度量,排序结果如下:


  
  
  1. 算法→工程师 score=23.631510656377284 , 通信→物理层 score=19.159871863013716 , 算法→处理 score=19.125497903771613 , 处理→算法 score=18.475331956988718 , 2D3D score=17.773577501893826 , 3D→算法 score=17.773577501893826 , Algorithm→解决问题 score=17.773577501893826 , RRMRTT score=17.773577501893826 , 人脸识别→face score=17.773577501893826 , 信号处理→生物 score=17.773577501893826 , 信号处理→领域 score=17.773577501893826 , 信道→均衡 score=17.773577501893826 , 分辨率→算法 score=17.773577501893826 , 医学→信号处理 score=17.773577501893826 , 图形图像→技术 score=17.773577501893826 , 基带→算法 score=17.773577501893826 , 复杂度→衡量 score=17.773577501893826 , 工具→MATLAB score=17.773577501893826 , 工程师→音频 score=17.773577501893826 , 常用→算法 score=17.773577501893826 , 当今→热门 score=17.773577501893826 , 必须→编程语言 score=17.773577501893826 , 掌握→计算机相关 score=17.773577501893826 , 方面→目前 score=17.773577501893826 , 物理层→信息 score=17.773577501893826 , 物理层→雷达 score=17.773577501893826 , 目前→国内 score=17.773577501893826 , 目前→国内外 score=17.773577501893826 , 目前→常用 score=17.773577501893826 , 目前→比较 score=17.773577501893826 , 空间→复杂度 score=17.773577501893826 , 算法→2D-to-3D score=17.773577501893826 , 算法→Algorithm score=17.773577501893826 , 算法→Motion score=17.773577501893826 , 算法→Noise score=17.773577501893826 , 算法→Sharpness score=17.773577501893826 , 算法→Super score=17.773577501893826 , 算法→de-interlacing score=17.773577501893826 , 算法→scaling score=17.773577501893826 , 算法→优劣 score=17.773577501893826 , 算法→有缺陷 score=17.773577501893826 , 算法→机器 score=17.773577501893826 , 缩放→算法 score=17.773577501893826 , 视频→图形图像 score=17.773577501893826 , 解调→信道 score=17.773577501893826 , 计算机相关→知识 score=17.773577501893826 , 识别→gesture score=17.773577501893826 , 调制→解调 score=17.773577501893826 , 逐渐→人工智能 score=17.773577501893826 , 通信→基带 score=17.773577501893826 , 锐化→处理 score=17.773577501893826 , 隔行→算法 score=17.773577501893826 , 雷达→信号处理 score=17.773577501893826 , 音频→算法 score=17.773577501893826 , 领域→RRM score=17.773577501893826 , 领域→一维 score=17.773577501893826 , 领域→目前 score=17.773577501893826 , 数据挖掘→互联网 score=17.76783479832517 , 人工智能→方向 score=17.64699298816246 , 成为→当今 score=17.447830648481858 , 一维→信息 score=17.427203254470296 , 搜索→算法 score=17.40048039480975 , 视频→算法 score=17.2148052032426 , 补偿→算法 score=17.039852876555194 , 算法→研究 score=16.988787665375852 , 信息→算法 score=16.985370502191255 , 仿真→工具 score=16.855930038394266 , 专业→书刊 score=16.813755113343554 , 高级→算法 score=16.76332748360438 , 复杂度→时间 score=16.59729206550135 , 时间→复杂度 score=16.59729206550135 , 从事→算法 score=16.537942616447157 , 工程师→图像 score=16.489091534242924 , 优劣→空间 score=16.371669548523666 , 职位→简介 score=16.332923953498966 , 手势→识别 score=16.33209056224301 , 机器→视觉 score=16.24418363011743 , 音频→视频 score=16.190300886728213 , 领域→调制 score=16.189962075950792 , 领域→音频 score=16.109919368277254 , 清晰→指令 score=15.887228980567027 , 算法→领域 score=15.748129323671751 , 利用→算法 score=15.472717343811786 , 传送→领域 score=15.469415921202732 , 工程师→很少 score=15.416146992323391 , 解决问题→清晰 score=15.402357094854453 , 信号→分解 score=15.315660837081825 , 执行→算法 score=15.315397089223248 , 适合于→问题 score=15.263455710232483 , 本科→学历 score=15.237216595685506 , 不同→算法 score=15.212095654042672 , 算法→不会 score=15.143324782778633 , 紧缺→专业 score=15.129415892736336 , 硕士→学历 score=14.994726517425098 , 工程师→逐渐 score=14.860539225785507 , 均衡→信号 score=14.804835213315835 , 算法→可能 score=14.775053629193474 , 使用→仿真 score=14.638591646580268 , 基本上→阅读 score=14.608263078043468 , 成为→算法 score=14.52109124641482 , 算法→成为 score=14.52109124641482 , 非常→紧缺 score=14.479675164476351 , 生物→医学 score=14.457291784931144 , 计算机→电子 score=14.232128201751985 , 高端→职位 score=14.14096848884276 , 处理→事物 score=14.086852969302782 , 国内外→状况 score=14.081518802118406 , 专业→工程师 score=14.041166391103774 , 熟练→使用 score=13.971419952423584 , 阅读→国外 score=13.93646902195409 , 电子→通信 score=13.923539444480891 , 信号→检测 score=13.92308373278244 , 优化→信号 score=13.849970389714096 , 工程师→利用 score=13.835108554410988 , 计算机→视频 score=13.79942318658849 , 互联网→搜索 score=13.509389225422641 , 估计→运动 score=13.430195153106098 , 运动→估计 score=13.430195153106098 , 要求→熟练 score=13.420249361400176 , 运动→补偿 score=13.403207008388451 , 工程师→非常 score=13.391425662843787 , 图像→处理 score=13.370036044656933 , 处理→图像 score=13.370036044656933 , 规范→输入 score=13.358071408679686 , 图像→技术 score=13.282935148449384 , 工程师→研究 score=13.27173733429522 , 研究→工程师 score=13.27173733429522 , 空间→效率 score=13.190902012304125 , 要求→输出 score=13.111411088981084 , 热门→方向 score=12.944494458213805 , 处理→通信 score=12.841818678179072 , 视觉→成为 score=12.714560459866451 , 国外→专业 score=12.572428360772808 , 先进→视频 score=12.526081994436229 , 要求→计算机 score=12.389690535977081 , 要求→本科 score=12.380344673558843 , 必须→掌握 score=12.24671879770809 , 通信→相关 score=12.165228935836836 , 效率→完成 score=12.083743841164328 , 国内→从事 score=12.071213816581144 , 比较→先进 score=11.981983504093982 , 非常→高端 score=11.86521840455941 , 英语→要求 score=11.810811448966076 , 要求→英语 score=11.810811448966076 , 学历→要求 score=11.758268935178092 , 检测→网络 score=11.734742541984915 , 网络→优化 score=11.661629198916572 , 同样→任务 score=11.49343465524305 , 能够→规范 score=11.407108191772982 , 完成→同样 score=11.161508752418655 , 有限→时间 score=11.12586208124467 , 研究→核心 score=11.089281777838682 , 视频→处理 score=11.071846563135924 , 语言→要求 score=11.021158631197032 , 研究→方向 score=10.792052628488372 , 研究→领域 score=10.721316077396594 , 信息→领域 score=10.600115878555613 , 不会→解决 score=10.450339971063002 , 时间→空间 score=10.42017817150674 , 相关→专业 score=10.245521159175548 , 专业→要求 score=10.161394002044698 , 可能→不同 score=10.05098991326497 , 处理→方面 score=9.975096016223532 , 技术→信息 score=9.944380749660702 , 获得→要求 score=9.9167883597784 , 技术→方面 score=9.887995120015985 , 方向→发展 score=9.70542076474947 , 时间→获得 score=9.679388455467398 , 方面→信息 score=9.58374685009418 , 不同→时间 score=9.4573145712718 , 解决→问题 score=9.184176537396961 ,

取其前5个作为最终结果:


  
  
  1. [算法工程师, 通信物理层, 算法处理, 处理算法, 2D3D]

效果勉勉强强吧。

Reference

《利用统计量和语言学规则提取多字词表达》

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>