机器学习
文章平均质量分 65
睡醒了的小码媛
数据挖掘路上的点滴积累
展开
-
傻瓜都能会的假设检验
统计推断的基本问题:1.估计问题2.假设检验问题本文先讲假设检验的问题,估计问题会在后面的文章中讨论。假设检验由来: 总体的分布函数完全未知或只知其形式但不知其参数的情况,为了推断总体的的某些未知特性,提出关于总体的假设。这里重点讨论对于正态总体提出数学期望等于u的假设。定义:有样本推断总体的一种方法步骤:1.根据实际问题的要求,提出原假设Ho及备择假设H1; ...原创 2018-07-11 09:23:13 · 288 阅读 · 0 评论 -
python数据挖掘--超参寻优篇(附方法和代码)
数据挖掘路上点点滴滴,记录超参优化的常用手段,最近在学习自动化超参寻优,持续更新。1.K折交叉验证参数from sklearn.model_selection import cross_val_score,KFold定义交叉验证规则n_folds = 5rmse=[]def rmsle_cv(model): kf = KFold(n_folds, shuffle=...原创 2019-06-07 09:17:50 · 1758 阅读 · 0 评论 -
python数据挖掘---建模篇(附代码)
数据挖掘路上点点滴滴,记录下机器学习常用模型(附代码),持续更新数据划分x_train1, x_test1, y_train1, y_test1 = train_test_split(x, y, train_size=0.8, random_state=14)数据标准化树类模型不需要,使数据符合N(0,1)分布。很多ML的算法要求训练的输入参数的平均值是0并且有相同阶数...原创 2019-06-07 09:02:38 · 4986 阅读 · 0 评论 -
python数据挖掘--特征工程篇(附代码)
记录数据挖掘路上遇到的常用特征工程方法和技巧(附代码),方便自己,方便他人,持续更新。1.哑编码对某一列数据进行pandas自带的(定性数据哑编码,定量数据二值化),并附上名字pd.get_dummies(all['MSSubClass'], prefix='MSSubClass')2.卡方特征选择从已有的特征中选择出影响目标值最大的特征属性常用方法:{ 分类:F统计量、卡...原创 2019-06-07 08:49:54 · 932 阅读 · 0 评论 -
python数据挖掘---数据清洗篇(附代码)
在数据挖掘路上点点滴滴,遇到的数据清洗的一些常用技巧和方法,记录下来,并持续更新。1.01读取数据不要索引,去掉字段前后空格train=pd.read_csv('train.csv',skipinitialspace=True,index_col=0)1.02缺失值处理按列统计缺失值比例,决定去除或者填充all_missing=all_dummies.isnul...原创 2019-06-07 08:42:27 · 5065 阅读 · 0 评论 -
机器学习系列(1)--最全算法概述(附案例)
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。1.线性回归定义:一种回归模型...原创 2019-02-22 19:49:04 · 176 阅读 · 0 评论 -
推荐系统(一)
1.背景推荐系统是利用网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买的过程。而个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。2.分类推荐系统(Recommender System, RS)是向用户建议有用物品的软件工具和一种技术。RS分为个性化推荐和非个性化推荐两大类:个性化推荐是指基于用户对商品的偏好信息来进...原创 2018-12-18 17:54:51 · 422 阅读 · 0 评论 -
机器学习分类问题--信贷审批
之前在某乎上看见有人说银行信贷审批的职业是越老越值钱,本文基于客户过往信贷数据角度进行机器学习训练,来探讨该职位未来是否还可能存在,欢迎吐槽我没有考虑信审人员懂产品、懂客户、懂市场,懂流程、懂风险,只是从机器学习角度来考虑,基于信贷数据进行用户信贷分类,使用Logistic算法和KNN算法模构建型。 一、相关理论 1.1 机器学习知识点: KNN:K近领算法,训练集中每一个样...原创 2018-07-01 09:32:54 · 1941 阅读 · 1 评论 -
区分BGD,SGD,MBGD
BGD(批量梯度下降):更新每一参数都用所有样本更新,m=all,更新100次遍历多有数据100次SGD(随机梯度下降):更新每一参数都随机选择一个样本更新,m=1MBGD(小批量梯度下降):更新每一参数都选m个样本平均梯度更新,1<m<all总结:SGD训练速度快,大样本选择;BGD能得到全局最优解,小样本选择;MBGD综合二者选择。 ...原创 2018-07-11 08:15:36 · 1401 阅读 · 0 评论 -
python数据挖掘--评估指标
数据挖掘路上滴滴点点,记录下常用评价指标。持续更新。Acc、f1、recall、precisionmetrics_lr = { 'accuracy': accuracy_score(prediction_lr, Y_test), 'f1': f1_score(prediction_lr, Y_test, average="macro"), 'recall': rec...原创 2019-06-07 09:19:54 · 793 阅读 · 0 评论