机器学习
文章平均质量分 91
DM_learner
这个作者很懒,什么都没留下…
展开
-
使用Isolation forest算法处理大规模数据方法介绍
在做数据挖掘时,我们常常因为自身电脑的配置不高,所以在运行代码时出现,cpu利用率太高或者内存使用率直接爆表的情况。在这里我介绍一种处理方法,这种方法所传递的思想,也可以用到类似的场景中去。本文是基于Isolation forest处理异常数据所采用的方法,其中原始数据非常庞大,数据量超过千万条,虽然Isolation forest这个算法实用性非常大,但是当数据量达到一定程度时,对于电脑硬件也是...原创 2019-10-25 11:35:30 · 1272 阅读 · 2 评论 -
k-近邻算法
1. 算法概述:是一种基本分类和回归的算法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻不具有显示的学习过程。k近邻实际上是利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k值的选择、距离度量及分类决策...转载 2018-09-07 19:50:19 · 1238 阅读 · 0 评论 -
决策树
决策树模型与学习1. 决策树模型决策树定义:分类决策树是一种描述对实例进行分类的树型结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶子结点表示一个类。用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其他子结点;这时,每一个子结点对应着该特征的一个取值,如此递归地对实例进行分配,直至达到叶结点。最后将实例分到...原创 2018-09-14 10:15:39 · 1189 阅读 · 0 评论 -
朴素贝叶斯
1. 朴素贝叶斯介绍朴素贝叶斯法是基于贝叶斯定理()与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x, 利用贝叶斯定理求出后验概率最大的输出y。2. 朴素贝叶斯特点优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感。使用数据类型:标称型数据3. 朴素...原创 2018-09-24 14:35:28 · 414 阅读 · 0 评论 -
关于python中几种数据可视化图形
python中我们一般用的最多的是matplotlib图形库,本人在写文章,做报告时,深感matplotlib图形比较单一化,这里介绍几种关于python的图形库(1)seaborn 是基于matplotlib的高级版,主要针对的数据挖掘和机器学习的变量特征选取,可以用非常短小的代码就可以画出多维变量的可视化图形,seaborn的官方网站:http://seaborn.pydata.org/,...原创 2018-10-16 11:24:15 · 4154 阅读 · 1 评论 -
关于使用hanlp进行中文分词时,出现错误 TypeError: must be str, not java.util.ArrayList 的解决方法
hanlp是基于java开发的,主要是用于生产环境下,如果使用python来调用hanlp的话,可以通过pyhanlp来使用它。但是我们直接使用from pyhanlp import *result=Hanlp.segment(data)print(result)那么就出现这样的结果:这是因为通过Hanl.segment(data) ,我们所获得的结果是java的ArrayLi...原创 2019-04-16 21:45:02 · 1092 阅读 · 1 评论