自然语言处理NLP
icenows
这个作者很懒,什么都没留下…
展开
-
搜狗实验室新闻素材整理
先把数据库的截图发一下,明天再写总结。sohu_news_src_DB所做的处理,最终目的是为了得到一序列参照频道划分的新闻词频率。——基于前提假设,同一条新闻在不同的平台上应该被归类到同一个频道下,那么,按照统计得到的数据可以应用到待处理的新闻关键词提取过程中,以提高关键词的提取效率。实现过程总结如下:第一阶段:将搜狗实验室提供的新闻原始数据进行分类存储。根据统计一共...2009-03-25 14:33:41 · 606 阅读 · 0 评论 -
wordnet数据文件整理小结
为了不被wordnet的API所限制,为了不用每次都拿着文档一个一个单位的比对,为了某某某的相似度计算不再计算的头昏眼花,为了我自己之后可能会用到wordnet。In a word,在如此强大的需求之下,我终于决定把wordnet的数据库文件解析出来,按照自己定义的模式保存在数据库中。——在这个过程中,第一次真实得感受到了传统关系数据库的局限性,不知道被热捧的XML数据库发展到什么程度了。废话...2009-07-29 12:04:26 · 632 阅读 · 0 评论 -
Stanford中文分词包批量处理的一个示例
抱怨了很久的分词问题,后来发现Stanford的一个中文分词软件非常不错,就想拿来看看效果怎么样。由于这个软件实在是太强大了,我也来不及去仔细分析,只是把DEMO研究了一下,看了下相关的3,4个类,利用API写了一段批量处理的示例代码。——这个分词软件有一个学习的过程,使用条件随机场方法,所以不把这一部分剥离处理恐怕处理大规模数据的时候就太慢了。直接上代码吧。package T...2009-06-26 02:28:46 · 186 阅读 · 0 评论 -
AI顶级会议列表
转载自:http://klqingshui.blog.163.com/blog/static/149118222008102292455456/对AI领域的会议的评点The First Class:tier-1的conferences, 其实基本上就是AI里面大家比较公认的top conference. 下面同分的按字母序排列.IJCAI (1+): AI最好的综合性会...2009-05-08 07:21:50 · 361 阅读 · 0 评论 -
召回率和准确率,关键词算法的评价讨论
关于如何评价关键词算法的效率,师姐建议采用借用搜索引擎的召回率和准确率来统计,——人工选择N个关键词,再自动抽取N个关键词进行比较。但是在最后的实现过程中发现,这种N:N的方法是不太恰当的,最明显的结果是召回率=准确率。另一方面,手动关键词的选取也值得商榷,限定提取N个关键词的办法似乎不是很好,问题在于究竟应该选取一个多大的N?——我在做测试集的时候就有这一困惑,有的新闻实在提取不出10个关键...2009-05-05 11:35:35 · 1620 阅读 · 2 评论 -
基于频道相关性的IDF计算_小结
由于项目需要改进关键词算法,在算法改进的可行方向_20090413中提到了几个可能的改进意见,这里先就第三点做了一些实现。实现目标:区分出高频的关键词,同时解决低频词IDF值过高的影响。实现依据:高频词中,无意义词在各频道的分布比较均衡,而关键词在各频道的出现频率差距比较大。由此,对于某一个候选词w,分析w在各频道的出现频率P(wi)的统计性质,即可区分出高频的无意义词和高频关...2009-04-19 05:08:52 · 133 阅读 · 0 评论 -
算法改进的可行方向_20090413
可能改进的方向和参数:*1、不同频道2、单词在文本中的位置3、IDF趋势的改变(词语在不同频道的分布) 方差*当前值,取反4、语义相关度5、时间变化...2009-04-13 07:50:43 · 259 阅读 · 0 评论 -
讨论:TF-IDF算法的优劣
前几天转载了TF-IDF算法的思路(见:TF/IDF算法(转载)),参照这一思路用JAVA实现了算法。——在这之前,我使用权重+词频(V-TF)的方法计算了文本的关键词。现在通过比较,来分析一下出现的一些问题。总体来说,很遗憾的得发现,——就目前的结果来看,TF-IDF的准确率明显不如V-TF。出现这一情况确实很意外,根据实验的情况,来分析其中究竟那些地方出了问题。首先解析一下...2009-04-06 12:30:50 · 1362 阅读 · 0 评论 -
TF/IDF算法(转载)
—— 一直说TF-IDF,终于开始做真正的TF-IDF。TF/IDF(term frequency/inverse document frequency) 的概念被公认为信息检索中最重要的发明。一。TF/IDF描述单个term与特定document的相关性TF(Term Frequency): 表示一个term与某个document的相关性。公式为这个term在document...2009-04-02 04:00:32 · 105 阅读 · 0 评论 -
关于构建新闻关键词知识库的一点想法
昨天和周师兄等人一起聊了些本体和语义的话题。结合着我们目前在做的项目,考虑了一下构建新闻知识库的可行性,——从工程实现的角度。首先说一下在新闻领域新闻关键词具有的一些特征:第一:新闻的思路是比较清晰的,——我个人觉得,用特征值来描述比较恰当一点。一则新闻,可以分解为5W,什么人,什么时候,在什么地方,做了什么事,为了这么做 AND/OR 这样作会有什么影响。——如果能分析出相应的特...2009-03-28 03:48:57 · 138 阅读 · 0 评论 -
基于wordnet多关系最短路径算法的词语相似度计算
基本算法思路:WORDNET相似度计算算法1、使用关系:同义关系,is-a关系,part-of关系2、概念之间以同义集关系进行跳转。如果两概念之间为同义集关系,则直接计算,否则同义集之间的关系跳转使用is-a关系和part-of关系3、概念深度的计算考虑单关系(is-a关系)单向(从根结点到待测节点)开始扫描;4、两个词语的相似度最终可以表示为:f(最短...2009-07-29 14:11:53 · 705 阅读 · 0 评论