数据挖掘一般流程(数据清洗,特征提取,建模,调参)

最近一直在实习,好长时间没更新博客了。哎,懒惰之心不可有啊!!

实习的岗位是数据挖掘相关的,所以正好把到目前为止实习期间遇到的一些问题、学到的一些东西总结一下,并参考了一些博客,自我提升。嘿嘿嘿~


数据挖掘的一般流程:


1.问题定义:属于分类问题还是回归问题


2.数据获取:根据数据挖掘任务的具体要求,从相关数据源中抽取相关数据集。(以前在实验室的时候用到的都是现成的数据,直接拿过来用就行了,到公司发现想要获取数据还需要掌握LINUXSQL的相关知识,于是抓紧时间恶补了一番,掌握了一些LINUX和SQL的基本命令和操作)


3.数据清洗:清除重复样本,清除疑似错误异常的样本,清除偏离样本整体分布的样本。(这一步对建立线性模型来说尤为重要,感觉这一步基本靠人肉)


4.缺失值处理:

(1)样本缺失值较少时,使用均值/众数值填充,当样本顺序与时间相关的话,填充可以参考相关时间信息;

(2)把是否缺失直接当作一种特征输入到模型中,比如说各种树模型;

(3)缺失样本较多时,可以考虑直接清洗掉这些样本。(实习项目 预测的是价格,出现了好多价格的缺失值,所以直接删除,美滋滋~)


5.特征选择:

(1)意义:避免维度灾难,降低模型复杂度,提高模型的可解释性。

(2)a.嵌入式选择:将特征选择和学习器结合,让模型训练过程中自动进行特征选择,比如各种树模型;b.包裹式选择:以模型最终的学习性能作为特征集的评估准则,选择好的特征集,但因为需要训练多个模型,开销很大,不推荐;c.过滤式选择:计算每个特征与相应变量的相关性,过滤掉相关性较低的特征,但实际应用中,一般会逐个特征分析与预测变量的关系,在Pandas中有很多相关函数(describe,value_counts()等等)可以很清晰的表示出两者关系,也可以通过画图,美滋滋~d.降维,用相关算法处理数据集,对特征重要性进行排序,取重要性大的特征,例如PCA等。


6.数据集划分:测试集和训练集(实习中用到的数据与时间相关,所以数据集顺序不能打乱,一般训练:测试比例在7:3  6:4  都行)


7.模型建立:

(1)数据归一化:一般的模型都需要归一化,原因:将数据维度都调整到某范围内。注意点:训练集归一化的时候要计算最大值和最小值,测试集归一化的时候也要用训练集的最大和最小值进行归一化。(很重要!!实习过程中犯的第一大错误,包括后续要产生某些新特征时,测试集一定要以训练集的指标划分!)

(2)模型选择:不管怎么样先用随机森林(Random Forest)试试,效果总不会太差,可以以这个为度量来评估后续模型的好坏。一般越复杂的模型效果越高,GBDT,XGBOOST等,但如果需求是解释性模型较高时,还是线性模型好;

(3)建模:这个就很easy了,尤其是现在各种开源的机器学习包,建模也就几行代码的事儿,推荐Sklearn,不能更方便;

(4)调参:交叉验证!先大范围的调,然后再小范围的调参,直到找到相对较好的参数。


8.学习总结:

(1)Python:由一知半解到有一个整体的认识,包括代码的规范书写(等号两边空格,变量常量命名规范等等)、类的定义使用、函数的封装等等;

(2)Pandas:数据分析工具,分析特征间、特征与预测变量间的关系,整理数据,包括切片、联合等等,常用的函数crosstab、groupby、join等等,产生新特征(dummy特征);

(3)Sklearn:简单模型(线性回归)、复杂模型(GBDT,Random Forest)的使用,调参(交叉验证等),构造新特征(利用GBDT每棵树的叶子节点的状态作为某个样本的新特征,与线性回归特征结合训练);


先到这里吧,还得继续干活了,以后有时间随时更!Mua~

  • 20
    点赞
  • 151
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
数据挖掘报告全文共9页,当前为第1页。数据挖掘报告全文共9页,当前为第1页。基于电商网站商品数据的数据分析与挖掘 数据挖掘报告全文共9页,当前为第1页。 数据挖掘报告全文共9页,当前为第1页。 1.电子商务和数据挖掘简介 1.1 电子商务 电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上支付结算等多种类型的电子商务形式。电子商务正以其低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务 1.2 数据挖掘技术 数据挖掘(Data Mining),又称数据库中的知识(Knowledge Discovery in Database, KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。 而电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即Web文档)和行为(即We服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术涉及到Internet技术学、人工智能、、信息学、学等多个领域。 1.3. 数据挖掘过程 挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。 1.3.1 数据预处理 实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。 数据挖掘报告全文共9页,当前为第2页。数据挖掘报告全文共9页,当前为第2页。 1. 3. 2 模式发现 数据挖掘报告全文共9页,当前为第2页。 数据挖掘报告全文共9页,当前为第2页。 模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。 1. 3. 3 模式分析 模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。 电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据,可以挖掘出商品的消费规律与客户的访问模式,帮助企业制定有效的营销策略,充分发挥企业的独特优势,促进管理创新和技术创新,提高企业竞争力。 随着电子商务发展的势头越来越强劲, 面向电子商务的数据挖掘将是一个非常有前景的领域。它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中也存在很多问题急需解决,比如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘,如何控制整个Web上知识发现过程等。随着硬件环境、挖掘算法的深入研究及应用经验的积累,数据挖掘技术及在电子商务中的应用必将取得长足的进展。 2.数据挖掘 2.1数据挖掘主要内容 对于10种品牌的卫生巾的属性、价格、包装等性能与其销量的关系。 10种卫生巾分别为:555、ABC、高洁丝、护舒宝、洁婷、乐而雅、米娅、七度空间、苏菲、怡丽 2.2数据来源 天猫超市 2.3数据挖掘工具 1.八爪鱼采集器 八爪鱼采集器是深圳视

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值