自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mousever的专栏

乘风破浪欲前行

  • 博客(5)
  • 收藏
  • 关注

转载 推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)

下面简单列举几种常用的推荐系统评测指标:1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就

2015-09-21 09:25:17 56705 2

转载 中文分词与停用词的作用

首先什么是中文分词stop word? 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也

2015-09-17 09:34:06 6403

转载 中文分词和TF-IDF

中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。  TF-IDF(term frequency–inverse document frequency)是一种用于信息搜索和信息挖掘的常用加权技术。在搜索、文献分类和其他相关领域有广

2015-09-17 09:10:36 1094

转载 【读PPT】管中窥豹:用大数据洞察“用户画像”的秘密!

    “百分点大数据技术沙龙——管中窥豹:用大数据洞察用户”在Binggo咖啡已圆满落幕.共有涵盖金融、电信、能源、互联网等10多个行业的大数据技术、产品、市场相关人员参加.“百分点大数据技术沙龙”是由百分点发起的为大数据领域相关技术人员举办的系列技术沙......“百分点大数据技术沙龙——管中窥豹:用大数据洞察用户”在Binggo咖啡已圆满落幕。共有涵盖金融、电

2015-09-11 17:12:35 2128

转载 PostgreSQL ODBC驱动(psqlODBC)的字符编码转换详解

使用ODBC访问PostgreSQL的时候,客户端和数据库的字符编码很可能会不一致,这时就需要进行字符编码转码。大多数场合,ODBC驱动(psqlODBC)和PostgreSQL后台可以很好地处理字符编码转码,不需要用户操心。但是如果设置不当,也可能会产生乱码或性能问题。所以有必要了解一下使用psqlODBC时字符编码是如何处理的。1. ANSI ODBC 驱动 or Unicod

2015-09-02 14:48:31 7776

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除