自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据挖掘相关知识点梳理

1 特征工程    1.1 数据预处理        1.1.1 异常值处理        1.1.2 空值处理        1.1.3 去量纲化:标准化和归一化        1.1.4 定性特征转化为哑变量:参考https://www.zhihu.com/question/28641663/answer/110165221定性特征不能直接使用:某些机器学习算法和模型只...

2018-08-23 18:10:41 230

原创 中文文本分类主要内容梳理

本文主要对中文文本分类的解决方法进行一个大致梳理,并不展开介绍和讨论。一、分词中文与英文不同,单词之间没有天然的空格,所以需要使用一定的方法将词语分开,且分词效果对最终的分类效果影响非常大。现将主要的分词方法归纳为以下几类:1、基于词典匹配的方法如正向最大匹配,反向最大匹配,双向最大匹配等方法。2、基于统计的方法比如HMM和CRF3、统计和词典匹配相结合的方法二、提取特征主要是TF-IDF三、文本...

2018-04-27 14:52:41 1498

转载 中文分词——字符串匹配的方法

基于字符串匹配的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词):1)正向最大匹配法(FMM)2)逆向最大匹配法 (BMM)3)双向最大匹配法     所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行...

2018-04-26 15:24:58 6754

转载 numpy.nonzero()函数()

Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,下面讲解一下numpy.nonzero()函数用法。numpy函数输入值:数组或矩阵返回输入值中非零元素的信息(以矩阵的形式)这些信息中包括 两个矩阵, 包含了相应维度上非零元素所在的行标号,与列标标号。例如:a=mat([ [1,0,0],[0,0,0],[0,0,0]])则 non

2017-02-17 10:22:36 437

转载 Matplotlib.pylab快速绘图

这里是原文http://blog.csdn.net/ywjun0919/article/details/8692018Matplotlib.pylab快速绘图matplotlib还提供了一个名为pylab的模块,其中包括了许多NumPy和pyplot模块中常用的函数,方便用户快速进行计算和绘图,十分适合在IPython交互式环境中使用。这里使用下面的方式载入pylab模块:

2016-12-27 14:35:54 1310

转载 数据挖掘中基本概念--数据类型的属性与度量

当我们在学习数据挖掘算法或者机器学习算法时,我们都会发现某些算法只能应用于特定的数据类型,所以在学习数据挖掘算法或者机器学习算法前我们需要对数据类型的属性度量有一个很清晰的了解,如果在数据类型这一步就出现问题,不管算法再怎么优异肯定也是白搭!!2.1.1  属性与度量本节我们考虑使用何种类型的属性描述数据对象,来处理描述数据的问题。我们首先定义属性,然后考虑属性类型的含义,最后介绍

2016-12-19 20:50:40 1186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除