数据挖掘
文章平均质量分 96
数据挖掘基础
闲人勿-
这个作者很懒,什么都没留下…
展开
-
数据挖掘基础-1.文本相似度
一、文本相似度相似度度量指的是计算个体间相似程度,一般使用距离来度量,相似度值越小,距离越大,相似度值越大,距离越小。在说明文本相似度概念和计算方式之前,先回顾下余弦相似度。1.余弦相似度衡量文本相似度最常用的方法是使用余弦相似度。– 空间中,两个向量夹角的余弦值作为衡量两个个体之间差异的大小– 余弦值接近1,夹角趋于0,表明两个向量越相似– 余弦值接近0,夹角趋于90...原创 2018-07-30 17:33:39 · 3952 阅读 · 4 评论 -
数据挖掘基础-2.中文分词
一、中文分词分词是文本相似度的基础,不同于英文分词,中文没有空格,所以在进行自然语言处理处理前,需要先进行中文分词。1.常用方法-基于词典匹配即有个用于匹配的词典,一般采用最大长度查找法,可以分为前向查找,后向查找。前向查找:待切分的句子从前往后切分,如果有存在一个最大长度的词在词典中,就在这切分。后向查找:句子从后往前切分,原理和前向相同。一般来说后向切分效果会好一点,因为中文重...原创 2018-09-18 19:32:40 · 4880 阅读 · 0 评论 -
数据挖掘基础-3.推荐系统
一、基于内容的推荐CB基于内容推荐,即根据用户的输入产生推荐的内容,推荐的方式主要可以分为基于item属性和基于user属性。1.基于Item属性推荐的物品(item):可为商品、音乐、网站等等。基于item的属性推荐可以是根据item的名称、item的类型、或者是其他属性,下面对根据item名称推荐进行举例。举例:假如数据库中有3条记录:9900、9901、9904,通过中文...原创 2018-09-27 23:12:22 · 591 阅读 · 0 评论