![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
text mining
文章平均质量分 70
wangxiafghj
这个作者很懒,什么都没留下…
展开
-
中文分词技术
一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、转载 2012-07-11 15:18:03 · 617 阅读 · 0 评论 -
关于数据平滑的一些理解
原文地址:关于数据平滑的一些理解作者:龙龙强 前段时间看论文时,论文里面采用了Kneser-Ney平滑算法对未登录词和稀有词进行了处理。看到这个陌生的名词,心里不由产生了几个问题,什么是平滑算法,它是干什么用的,什么是Kneser-Ney,它有什么特殊之处,利用平滑算法对于未登录词和稀有词处理后会产生什么样的效果。带着这些疑问,我阅读了宗成庆的《统计自然语言理解》和他的课件,看课件时转载 2013-07-12 09:29:40 · 1623 阅读 · 0 评论 -
geohash算法原理及实现方式
原地址:http://www.cnblogs.com/dengxinglin/archive/2012/12/14/2817761.htmlgeohash算法原理及实现方式1、geohash特点2、geohash原理3、geohash的php 、python、java、C#实现代码4、观点讨论 w微博:http://weibo.com/dxl0321geoh转载 2013-06-03 16:04:12 · 7639 阅读 · 0 评论 -
几种不同语言版本的HMM实现
C语言版:1、 HTK(Hidden Markov Model Toolkit): HTK是英国剑桥大学开发的一套基于C语言的隐马尔科夫模型工具箱,主要应用于语音识别、语音合成的研究,也被用在其他领域,如字符识别和DNA排序等。HTK是重量级的HMM版本。 HTK主页:http://htk.eng.cam.ac.uk/2、 GHMM Libr转载 2013-05-17 15:15:12 · 382 阅读 · 0 评论 -
解析新浪微博place页面获取poiURl
life_entertainment后面开始的是热门的poi详细信息以\r\n\t\t\t\t\t\t开始一条热门poi地区的详细信息用pt_pic W_fl字段切割其中一条poi信息<li class=\"clearfix\">\r\n\t\t\t\t\t\t<img src=\"http:\/\/ww2.sinaimg.cn\/large\/4e704b16jw1e1bs5原创 2013-04-30 18:30:30 · 423 阅读 · 0 评论 -
新浪微博定位页面代码解析
一个页面包含10条定位微博,可以利用feed_page=number进行翻页爬取。\r\n\t\t\t\t\r\n\t\t\t代码后开始定位微博信息,前面是周边热门图片信息。共XXXX条周边微博以下分别定位字段为,mid,content,locate,geo,date\r\n\t\t\t\t+微博内容(例如:这里很堵啊。。。。)+位置信息(例如:浙江省,杭州市,原创 2013-04-26 22:01:13 · 529 阅读 · 0 评论 -
根据地球上任意两点的经纬度计算两点间的距离
根据地球上任意两点的经纬度计算两点间的距离地球是一个近乎标准的椭球体,它的赤道半径为6378.140千米,极半径为 6356.755千米,平均半径6371.004千米。如果我们假设地球是一个完美的球体,那么它的半径就是地球的平均半径,记为R。如果以0度经线为基 准,那么根据地球表面任意两点的经纬度就可以计算出这两点间的地表距离(这里忽略地球表面地形对计算带来的误差,仅仅是理论上的估算值)。转载 2012-12-04 13:30:03 · 1138 阅读 · 0 评论 -
关于中科院分词系统ictclas java版本 ICTCLAS50_Windows_32_JNI 的使用
关于中科院分词系统ictclas java版本 ICTCLAS50_Windows_32_JNI 的使用问题首先下载ictclas的官方网站http://ictclas.org/ictclas_download.aspx http://ictclas.org/ictclas_download.asp下载所需的ictclas版本,我使用的是ICTCLAS50_原创 2012-11-05 10:53:52 · 1931 阅读 · 1 评论 -
Pearson 相关系数
皮尔森相关系数(Pearson correlation coefficient),也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,r的绝对值越大,表明相关性越强。 两变项间的相关可以用许多统计值来测量,最常用的是皮转载 2012-09-20 11:45:40 · 920 阅读 · 0 评论 -
内存泄露
1、概念简单的说就是你申请了一块内存空间,使用完毕后没有释放掉。它的一般表现方式是程序运行时间越长,占用内存越多,最终用尽全部内存,整个系统崩溃。由程序申请的一块内存,且没有任何一个指针指向它,那么这块内存就泄露了。2、泄漏的例子举几个例子 void fun0() { char *p=new char[100];转载 2012-08-28 11:35:33 · 455 阅读 · 0 评论 -
Slope one:简单高效的推荐算法
推荐系统最早在亚马逊的网站上应用,根据以往用户的购买行为,推荐出购买某种产品同时可能购买的其他产品,国内做的不错的当当网,有时候买书,它总能给我推荐出我感兴趣的其他书来,也算是技术极大的促进了销售。一般的协同过滤算法,首先是收集用户对事物(产品)的评分情况,一种直接对某本书,或者某个歌曲打分,另种是隐性的打分,比如商务系统中,购买了表示打2分,浏览了打1分,其他的0分。我比较看好隐性打分,转载 2012-08-28 11:15:38 · 489 阅读 · 0 评论 -
主要的推荐算法简介
在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内转载 2012-08-28 11:01:39 · 469 阅读 · 0 评论 -
短链接算法收集与分析
通俗来说,就是将长的URL网址,通过程序计算等方式,转换为简短的网址字符串。如下所示就是短链接:新浪微博 http://t.cn/SVpONM腾讯微博 http://url.cn/302yorYun.io http://d.yun.io/PNri2v短链接的好处:1、内容需要;2、用户友好;3、便于管理。如何实转载 2012-07-04 11:23:21 · 486 阅读 · 0 评论 -
TDT话题检测与跟踪
话题检测与跟踪(Topic Detection and Tracking)是近年提出的一项信息处理技术,这项技术旨在帮助人们应对日益严重的互联网信息爆炸问题,对新闻媒体信息流进行新话题的自动识别和已知话题的持续跟踪。TDT是一项综合的技术,需要比较多的自然语言处理理论和技术作为支撑,因此这些测评对其进行了细化。根据不同的应用需求,TDT评测会议把话题检测和跟踪分成五个子任务。 ●转载 2012-06-02 17:53:59 · 2131 阅读 · 0 评论 -
计算机顶级会议Rankings
CORE Computer Science Conference RankingsAcronymStandard NameRankAAAINational Conference of the American Association for Artificial IntelligenceA+AAMASInternational转载 2012-07-11 15:20:53 · 1945 阅读 · 0 评论 -
Latent Dirichlet Allocation详解
Latent Dirichlet Allocation David.M.Blei Andrew.Y.Ng Michael.I.Jordan JMLR2003 (可google到) 原文的主要内容 有两种方法设计分类器: 1. discriminative model,就是由样本直接设计判别函数,例如SVM; 2. genera转载 2012-07-11 15:13:19 · 437 阅读 · 0 评论 -
文本关键词提取算法
1.TF-IDF昨天给大家演示简单的文本聚类,但要给每个聚类再提取一两个关键词用于表示该聚类。我们还是用TFIDF算法来做,因为这是比较简单的提取特征算法,不过这里的TF是指某词在本聚类内所有文章的词频,而不是本文章内出现的次数,IDF还是在所有文章里出现的倒文档频率。原理:1、先给本聚类内的所有文档进行分词,然后用一个字典保存每个词出现的次数2、遍历每个词,得到每个词在所有文档里转载 2013-07-11 21:34:34 · 741 阅读 · 0 评论