[NLP技术]关键词提取算法实现

原创 2017年10月14日 15:26:51

实现代码:

var nodejieba = require("nodejieba");
var fs = require('fs');
var topN = 100;
var result;
var data = fs.readFileSync('t.txt', 'utf8');
console.log(data);
result = nodejieba.extract(data, topN);
console.log("11==>",result);

t.txt

据中国之声《新闻纵横》报道,在刚刚过去的中秋之夜,一颗“火流星”滑亮了云南省迪庆州的夜空。根据相关天文机构公布的信息,陨石坠落的地点,可能位于香格里拉市的巴拉格宗景区范围内。

事发一周之后,昨天(11日)下午,记者专访了巴拉格宗景区相关人员。对方称,目前还是没有确定陨石坠落的具体位置。最近,有很多人员都在当地寻找陨石,但至今没有任何消息。虽然陨石还没有找到,但在网上有关陨石归属的问题已经引发了讨论。

巴拉格宗景区的工作人员洛桑培楚说,事发当时,景区的多位工作人员都目睹了那颗“火流星”,“因为我们酒店的位置,刚好是在一个U字型的峡谷里,感觉突然间天空特别亮,有个东西就飞过来了,打在对面的崖壁上,过了几分钟之后,就听见咚的一声,附近村民有明显的震感。”

实现效果:

liuyugang:NodeJieBa apple$ node nodenlp.js
....
11==> [ { word: '陨石', weight: 45.6077707943 },
  { word: '格宗', weight: 35.21761292125063 },
  { word: '景区', weight: 32.27518069876 },
  { word: '巴拉', weight: 29.735080816230003 },
  { word: '火流星', weight: 24.582479479 },
  { word: '坠落', weight: 18.22637181838 },
  { word: '事发', weight: 16.80701885336 },
  { word: '工作人员', weight: 13.28734988976 },
  { word: '震感', weight: 12.5143832909 },
  { word: '迪庆', weight: 11.9547675029 },
  { word: '11', weight: 11.739204307083542 },
  { word: '培楚', weight: 11.739204307083542 },
  { word: '有个', weight: 11.739204307083542 },
  { word: '人员', weight: 11.18200151198 },
  { word: '新闻纵横', weight: 11.0103058941 },
  { word: '具体位置', weight: 10.8096351986 },
  { word: '飞过来', weight: 10.765183436 },
  { word: '香格里拉', weight: 10.642581114 },
  { word: '洛桑', weight: 10.2630914922 },
  { word: '字型', weight: 10.0088573539 },
  { word: '相关', weight: 9.67141986604 },
  { word: '崖壁', weight: 9.65218240993 },
  { word: '没有', weight: 9.338470695449999 },
  { word: '目睹', weight: 8.79473217808 },
  { word: '之后', weight: 8.7536825453 },
  { word: '夜空', weight: 8.75318317516 },
  { word: '之夜', weight: 8.65893063692 },
  { word: '中秋', weight: 8.55357012126 },
  { word: '那颗', weight: 8.5488195185 },
  { word: '几分钟', weight: 8.4980002701 },
  { word: '专访', weight: 8.35941410682 },
  { word: '多位', weight: 8.01735526349 },
  { word: '云南省', weight: 8.00903344015 },
  { word: '归属', weight: 8.00078029839 },
  { word: '刚好', weight: 7.90174109003 },
  { word: '之声', weight: 7.58531965045 },
  { word: '天文', weight: 7.45973111134 },
  { word: '峡谷', weight: 7.41757030052 },
  { word: '村民', weight: 7.28595205177 },
  { word: '酒店', weight: 7.19748953873 },
  { word: '对面', weight: 7.13679274341 },
  { word: '天空', weight: 6.90491149567 },
  { word: '一颗', weight: 6.84364067028 },
  { word: '地点', weight: 6.68250081357 },
  { word: '一周', weight: 6.6090214428 },
  { word: '讨论', weight: 6.28144423575 },
  { word: '引发', weight: 6.18600017817 },
  { word: '网上', weight: 6.15610784262 },
  { word: '寻找', weight: 6.04010686644 },
  { word: '下午', weight: 5.96939289045 },
  { word: '昨天', weight: 5.92683327603 },
  { word: '听见', weight: 5.92339566522 },
  { word: '报道', weight: 5.88040717916 },
  { word: '刚刚', weight: 5.78366356424 },
  { word: '最近', weight: 5.76738379075 },
  { word: '位置', weight: 5.67463922249 },
  { word: '找到', weight: 5.66161232021 },
  { word: '感觉', weight: 5.64147828931 },
  { word: '确定', weight: 5.35063012369 },
  { word: '信息', weight: 5.25386069277 },
  { word: '范围', weight: 5.19468393767 },
  { word: '附近', weight: 5.16934129144 },
  { word: '一声', weight: 5.15269025031 },
  { word: '公布', weight: 5.06198083963 },
  { word: '消息', weight: 5.03989475617 },
  { word: '突然', weight: 4.99713421631 },
  { word: '位于', weight: 4.96609078159 },
  { word: '很多', weight: 4.85828267085 },
  { word: '东西', weight: 4.77328420082 },
  { word: '过去', weight: 4.75519585235 },
  { word: '特别', weight: 4.74775455087 },
  { word: '当时', weight: 4.67584283385 },
  { word: '机构', weight: 4.65227107919 },
  { word: '明显', weight: 4.63964416568 },
  { word: '记者', weight: 4.29694475313 },
  { word: '问题', weight: 3.96351357308 },
  { word: '目前', weight: 3.91528758382 },
  { word: '可能', weight: 3.74802798573 },
  { word: '已经', weight: 3.42054864564 },
  { word: '中国', weight: 3.02732068666 },
  { word: '一个', weight: 2.81755097213 } ]
liuyugang:NodeJieBa apple$

源码地址

版权声明:本文为博主原创文章,未经博主允许不得转载。

【原创】NLP中的中文分词技术

分词就是对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。是自然语言处理(NLP)的一种基础技术形态,中文因为特殊性,跟英文等自然语言处理方式不同,本文主要是探讨...
  • heiyeshuwu
  • heiyeshuwu
  • 2015年01月09日 14:46
  • 7804

NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较

笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的。所以这边看到有几家大牛都在中文分词以及NLP上越走越远...
  • sinat_26917383
  • sinat_26917383
  • 2016年11月25日 14:02
  • 13075

【NLP】中文分词:原理及分词算法

一、中文分词         词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理...
  • DianaCody
  • DianaCody
  • 2014年11月09日 15:28
  • 5415

nlp_关键词提取总结

关键词提取:从文本中提取出与这篇文章意义最相关的词语。 关键词的作用: 1、文献检索初期,关键词作为搜索这篇论文的词语。 2、在文本聚类、分类、摘要等领域中有着重要的作用。 ——比如聚类时把关...
  • zhangyu132
  • zhangyu132
  • 2016年07月11日 16:10
  • 3705

基于TextRank算法提取关键词——Java实现

TextRank算法 提取关键词
  • qq_18860653
  • qq_18860653
  • 2017年11月03日 16:33
  • 4415

NLP技术中的词语对齐实现模块 GIZA++在windows上的移植实现

  • 2011年05月02日 14:33
  • 1.13MB
  • 下载

自然语言处理技术(NLP)在推荐系统中的应用 原2017.06.29人工智能头条 作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索、推荐以及算法相关工作。多年来主要从事推荐系统以及机

自然语言处理技术(NLP)在推荐系统中的应用 原2017.06.29人工智能头条 作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索、推荐以及算法相关工作。多年来主...
  • starzhou
  • starzhou
  • 2017年07月27日 12:57
  • 521

NLP中的语言模型及文本特征提取算法

本文以基本语言模型为逻辑主线,漫谈NLP中两个核心问题,即文本表示(Text Representation)与文本特征提取(Feature Engineering)。通过本文你会发现,NLP的一部分经...
  • TiffanyRabbit
  • TiffanyRabbit
  • 2017年05月23日 16:50
  • 775

ansj分词算法关键词提取规则

ansj分词算法关键词提取规则
  • woshixiaoxiamidiyi
  • woshixiaoxiamidiyi
  • 2016年08月18日 23:54
  • 404

数据挖掘算法:tf-idf*(自动提取关键词)

这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样...
  • HHTNAN
  • HHTNAN
  • 2016年12月27日 10:44
  • 210
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[NLP技术]关键词提取算法实现
举报原因:
原因补充:

(最多只允许输入30个字)