数据挖掘
文章平均质量分 91
hustlx
小硕一枚,兴趣人工智能、机器学习、图像处理。
展开
-
mapreduce简单实现
第一步:登陆服务器:ssh 2014210***@thumedia.org -p 63492014210***@thumedia.org's password:输入密码之后可见:Welcome to Ubuntu 12.04.4 LTS (GNU/Linux 3.2.0-61-generic x86_64) * Documentation: https://help.ubun原创 2016-03-10 20:56:57 · 1069 阅读 · 0 评论 -
数据预处理
1.概述数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术,挖掘算法,挖掘语言等在海量的原始数据中,存在原创 2016-03-10 20:18:47 · 4312 阅读 · 0 评论 -
利用weka和clementine数据挖掘举例
1.数据概述本实验中采用的数据集来自于UCI经典数据集Adult,最初来源是由1994年Barry Becker的统计数据集,该数据集本来最初的主要任务是根据数据集中的相关属性预测某个人的年收入是大于50K还是小于等于50K。本数据集一共有14个属性用来预测个人的年收入,包括了年龄、工作阶层、教育程度、职业、性别、种族、家庭状况等情况。这14个基本属性中有一项属性为fnlwgt,即fi原创 2016-03-10 20:23:33 · 7133 阅读 · 0 评论 -
流式数据处理
直接登陆服务器:ssh 2014210***@thumedia.org -p 6349创建streaming.py: touch streaming.py,并且如下编辑:#! /usr/bin/pythonimport loggingimport mathimport timepg2count={}t=1while 1: fp=open('/tmp/hw原创 2016-03-10 21:00:10 · 2828 阅读 · 0 评论