——机器学习知识点
记录对《Python数据分析与挖掘实战》一书的实践和梳理。
anonymox
这个作者很懒,什么都没留下…
展开
-
模型评估方法(分类、回归)
文章目录一、分类模型评估混淆矩阵准确率、精确率、召回率、F1值P-R曲线ROC曲线和AUC值KS值二、回归模型评估(待更新)一、分类模型评估混淆矩阵、准确率 accuracy、精确率 precision、召回率 recall、F1值P-R曲线、ROC曲线、AUC值KS曲线(KS值)混淆矩阵from sklearn.metrics import confusion_matrixy_pred = [0,1,0,1]y_true = [0,1,1,0]confusion_matrix(y_t原创 2020-11-11 01:14:15 · 240 阅读 · 0 评论 -
数据清洗(缺失、异常处理)
文章目录缺失值填补原则填补方法(待补充)异常值查找原则极端值离群值处理方式盖帽法分箱法缺失值填补原则首选基于业务的填补方法,其次根据单变量分析进行填补。(多重插补进行所有变量统一填补的方法只有在粗略清洗时菜户其使用。)缺失比例填补原则缺失值少于20%连续变量使用均值或中位值填补;分类变量不需要填补,单算一类即可,或者用众数填补缺失值在20~80%填补方法同上;另外每个有缺失值的变量生成一个指示哑变量,参与后续的建模缺失值大于80%每个有缺失值的变量生成一个指示原创 2020-11-08 20:56:26 · 512 阅读 · 0 评论 -
(五)Python数据分析与挖掘实战——挖掘建模
文章目录代码logistic_regression.pydecision_tree.pyneural_network.pyk_means.pytsne.pyapriori.pyarima_test.pydiscrete_point_test.pycal_apriori.pycm_plot.py挖掘建模分类与预测逻辑回归决策树人工神经网络分类与预测算法评价Python分类预测模型特点聚类分析代码logistic_regression.py这里利用稳定性选择方法中的随机逻辑回归进行特征筛选,然后利用筛选后原创 2020-10-27 00:46:17 · 668 阅读 · 1 评论 -
(四)Python数据分析与挖掘实战——数据预处理(清洗、规约)
这个专栏用来记录我在学习和实践《Python数据分析与挖掘实战》一书时的一些知识点总结和代码实现。文章目录数据脚本lagrange_newton_interp.pydata_normalization.py 归一化data_discretization.py 离散化line_rate_construct.pywave_analyze.pyprincipal_component_analyze.py 主成分数据catering_sale.xlsnormalization_data.xlsdis.原创 2020-10-26 22:30:46 · 1029 阅读 · 0 评论 -
(三)Python数据分析与挖掘实战——数据探索
文章目录数据abnormal_check.pystatistics_analyze.pydish_pareto.pycorrelation_analyze数据catering_sale.xlscatering_dish_profit.xlscatering_sale_all.xlsabnormal_check.py#-*- coding: utf-8 -*-import pandas as pdcatering_sale = '../data/catering_sale.xls' #原创 2020-10-25 22:53:58 · 561 阅读 · 0 评论 -
(一)整体目标及数据挖掘流程介绍
文章目录背景及目标餐饮行业的信息化管理 介绍一些可行的策略点提炼数据挖掘的通用步骤一、目标定义二、数据采集三、数据整理四、构建模型五、模型评价六、模型发布背景及目标这一章通过选择了一个餐饮行业的真实案例来进行分析,在一些具体业务描述上会更贴近餐饮行业,但整体的思路对其他行业还是有可借鉴的地方的。餐饮行业的信息化管理 介绍客户关系管理系统相当于是每个公司都会有的CRM系统,通过对客户的信息的详细分层,从而可以针对不同人群实行不同的运营策略,为客户提供个性化服务,从而达到整体效益的最优化。例如原创 2020-10-24 19:24:51 · 217 阅读 · 0 评论