数据挖掘
依然在原点
宁愿笑着流泪也不愿哭着说后悔
展开
-
UCI数据集使用
UCI数据库目前共有187个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。 UCI数据可以使用Matlab的dlmread或textread读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。 每个数据文件(.data)包含以“属性-值”对形式描述的很多个体样本的记录。对应的.info文件包含的大量的文档资料。(有些文件generat原创 2016-05-09 16:15:36 · 41702 阅读 · 1 评论 -
数据挖掘
1.数据挖掘的建模过程 (1)定义挖掘目标—–根据具体的数据挖掘应用需求,明确本次的挖掘目标,系统完成后能达到什么样的效果。需要分析应用领域,其背景、情况及各种相关知识。 (2)数据取样—-从业务系统中抽取与挖掘目标相关的样本数据子集(相关性、可靠性、有效性) (3)数据探索—–对抽取的样本数据进行探索、审核和必要的加工处理。 主要包括:异常值分析、缺失值分析、相关分析、周期性分析等。 数原创 2016-04-21 11:03:44 · 938 阅读 · 0 评论 -
时序模式--时间序列分析
时间序列分析目的:给定一个已被观测了的时间序列,预测该序列的未来值 1.时间序列预处理 (1)纯随机性和平稳性检验,检验结果不同将序列分为不同 的类型,有不同的分析方法。 纯随机序列(白噪声序列)—序列各项之间无任何相关关系,序列在进行完全无序的随机波动,可终止对序列的分析。白噪声序列是没有信息可提取的平稳序列。 平稳非噪声序列—-其均值与方差是常数,通常采用原创 2016-06-15 10:08:08 · 3973 阅读 · 0 评论 -
基于关联规则的智能推荐
结合用户访问网站的行为,挖掘出不同的用户群体,推荐匹配的服务,以提高用户的留存率。结合业务需要与用户的访问行为特征,进行相应的推荐。 数据挖掘建模目标: (1)根据用户访问数据,挖掘用户的访问行为习惯,识别用户在访问某些页面资源时可能感兴趣的其他资源,并进行智能推荐。 (2)根据用户的历史访问数据,总结用户的访问网页类别特征、将用户划分为不同群体,并向其推荐不同的服务。原创 2016-06-22 15:15:56 · 4620 阅读 · 0 评论 -
情感分析
转载原文:http://mt.sohu.com/20160504/n447633822.shtml这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着以豆瓣影评为例介绍文本数据的爬取,最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆盖面巨大,转载 2016-08-13 10:57:31 · 3112 阅读 · 0 评论