自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 课堂笔记-文本挖掘-CM2-聚类

(课从Solen Quiniou) 一、介绍 1.分类(catégorisation,en. classification)文本依赖于监督式学习 ·定义分类类别 ·学习数据通过分类类别人工标记 2.聚类(clustering)文本依赖于非监督式学习 ·簇由无标签数据建立 3.分类文本例子 ·垃圾邮件自动检测 ·识别文

2017-10-07 20:12:31 5278

原创 课堂笔记-文本挖掘-CM1

(课从Solen Quiniou) 一、介绍 目的:鉴定文本中重要元素,并建立内部表示。 问题: 1.文本中元素以什么为单位。 2.怎么定义他们的重要性。 3.如果用内部表示优化搜索。 二、文本预处理 1.分词(tokenization) ·将一序列字符分开为词(tokens) ·一般来说利用空格或者标点符号 ·每个单词都可以进行其他语言处理 2.分词问题 ·撇号,表示双

2017-10-07 08:32:03 382

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除