python机器学习
文章平均质量分 95
机器学习:是从历史数据中自动分析获取模型,并利用模型对未知数据进行预测。本专栏使用python3进行编程实现。
Jalen data analysis
数据分析学者和从业人员
展开
-
机器学习(无监督学习)关联规则Apriori算法原理与python实现
一、关联规则原理:1、概述:关联规则算法是在一堆数据集中寻找数据之间的某种关联,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集、关联规则。频繁项集:经常出现在一块的物品的集合。 关联规则:暗示两种物品之间可能存在很强的关系。关联分析典型的例子,沃尔玛超市啤酒于尿不湿的关联分析。例如:购物篮数据订单编号 购买商品...原创 2020-04-19 19:38:46 · 2944 阅读 · 2 评论 -
某电信运营商客户是否会流失的预测分析
1、项目背景如今通讯市场饱和,运营商之间争夺客户十分激烈,电信运营商一般会通过套餐(某种合约)的形式来吸引和绑定用户,为了保持用户粘性,会将合约的价格定得比随用随付的要优惠。比如,一个1年的套餐合约用户,需要按照套餐合约每月缴纳一定的通讯使用费,而运营商会提供约定的服务,如果用户有在套餐范围之外的通讯使用,则可能会产生额外收费。当用户的套餐合约到期时,用户很可能受到其他运营商的优惠活动吸引而转...原创 2020-02-28 14:17:44 · 4131 阅读 · 0 评论 -
无监督学习PCA降维处理和K-means聚类
无监督学习:没有目标值(变量)的算法。常见的无监督学习算法:1、降维:– 主成分分析PCA降维处理。2、聚类:– K-means(k均值聚类)。原创 2020-02-26 18:37:06 · 2383 阅读 · 0 评论 -
sklearn模型的保存和加载API--案例癌症(逻辑回归)分类预测
sklearn模型的保存和加载APIfrom sklearn.externals import joblib。保存:joblib.dump(estimator,'test.pkl')。加载:estimator=joblib.load('test.pk')将训练模型保存下来,下次有新的需要预测的数据传进来的时候直接加载模型,然后预测就不用每次都从新训练了。案例:癌症(逻辑回归)分类预测–...原创 2020-02-26 13:55:23 · 1567 阅读 · 0 评论 -
机器学习模型评估
机器学习模型评估:准确率、精确率、召回率、F1-score。ROC曲线和AUC值。原创 2020-02-25 19:45:25 · 1336 阅读 · 0 评论 -
Logistic(逻辑)回归分析
Logistic回归和线性回归最大的区别在于,Y的数据类型。线性回归分析的因变量Y属于定量数据,而Logistic回归分析的因变量Y属于分类数据。逻辑回归应用场景:广告点击率(是否会被点击),垃圾邮件、是否患病、金融诈骗、虚假账号等。原创 2020-02-25 15:21:21 · 42470 阅读 · 1 评论 -
python回归分析总结--线性模型及岭回归
1、回归分析概括。2、损失函数。3、优化算法。4、python的API。5、python机器学习线性模型API。6、机器学习中回归性能评估。7、欠拟合和过拟合。8、线性回归的改进--岭回归。9、案例代码原创 2020-02-25 13:22:19 · 5123 阅读 · 0 评论 -
常见的回归函数及线性回归分析(python3)
线性回归分析(python3)1、python固定导入的包# 工具:python3#固定导入import numpy as np #科学计算基础库,多维数组对象ndarrayimport pandas as pd #数据处理库,DataFrame(二维数组)import matplotlib as mpl #画图基...原创 2020-02-16 18:16:35 · 10937 阅读 · 0 评论 -
python分类分析--随机森林原理及案例
随机森林1、什么是集成学习方法集成学习通过建立几个板型组合的来解决单一预测问题,它的工作原理是生成多个分类器/模型,各独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。决策树过度拟合可以用剪枝或者集成学习方法的随机森林实现。2、什么是随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由多个决策树输出的类别的众数而定。例如,如果...原创 2020-02-24 17:35:43 · 8256 阅读 · 1 评论 -
python分类分析--决策树算法原理及案例
1、决策树概括- 目标值是分类型变量,特征值(属性值/自变量)可以是分类型,也可以是连续型。2、决策树的划分依据—信息增益、信息增益比决策树的生成:- 贪婪算法:只能局部最优(具有单一属性分类的节点最佳,到此节点认为分类达到准确)- 根据某一属性对数据进行分裂,以达到某一标准的最优值3、3种决策树的原理·ID3准则:信息增益最大的准则·C4.5。信息增益比最大的准则...原创 2020-02-24 13:24:35 · 2765 阅读 · 1 评论 -
python分类分析--朴素贝叶斯算法原理与文本分类分析案例
一、朴素贝叶斯算法原理1、联合概率、条件概率与相互独立·联合概率:包含多个条件,且所有事件同时成立的概率。记作:P(A,B)。例如:P(程序员,体型匀称),P(程序员,超重,喜欢)·条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率。记作:P(A|B)。例如:P(程序员|男生),P(程序员,体重标准|女性)·相互独立:如果P(A,B)=P(A)P(B),则称事件A与事...原创 2020-02-23 18:38:27 · 2031 阅读 · 0 评论 -
机器学习模型选择与调优 ---交叉验证、超参数搜索-网格搜索
模型选择与调优常见方法: 交叉验证(cross validation) 超参数搜索-网格搜索(Grid Search)1、交叉验证(cross validation)交叉验证:将拿到的训练数据,分为训练和验证集。以下图为例:将数据分成4份,其中一份作为验证集。然后经过4次(组)的测试,每次都更换不同的验证集。即得到4组模型的结果,取平均值作为最络结果。又称4折交叉验证。实际...原创 2020-02-22 23:53:38 · 2188 阅读 · 5 评论 -
python分类分析--K-近邻(KNN)算法及鸢尾花分类案例
1、分类分析--K近邻(KNN)算法原理核心思想:根据离自己最近的邻居判断自己属于哪一类,如上图当圆的半径(距离)为1时,k个个体中有2/3个是三角形,则目标圆点(预测点)的分类和三角形为一类;当半径(距离)取值为2时,k个特征个体中有3/5个是正方形,则认为预测点和正方形为一类的思想。由此也说明了KNN算法的结果很大程度取决于K的选择。我们设定要取的k个邻近点来看属于哪一类别的分类时...原创 2020-02-22 18:53:07 · 5276 阅读 · 1 评论 -
sklearn转换器和估计器
sklearn转换器和估计器转挨器- - - - 特征工程父类1、类例化(实例化的是一个转换器类(Transformer))2、调用fit_transform(对于文稍建立分类词频矩阵,不能同时调用)案例说明 标准化:(x-mean)/stdfit_transform() fit()计算每一列的平均值、标准差 transform()(x-mean)/std进行最终的转换...原创 2020-02-22 14:29:13 · 646 阅读 · 0 评论 -
特征工程案例--(合并表,交叉表、主成分分析)
机器学习特征工程案例。知识点:合并表:merge,交叉表:crosstab,主成分分析:from sklearn.decomposition import PCA原创 2020-02-22 14:21:54 · 739 阅读 · 1 评论 -
机器学习之特征工程,工具(python3)
1、机器学习开发流程概括数据预处理:在python中使用pandas库,如:缺失值、异常值等的数据清洗、数据处理Pandas数据处理:https://blog.csdn.net/weixin_41685388/article/details/1038412962、特征工程概括特征工程:是使用专业背景知识和技巧处理数据,使得特征值(自变量)能在机器学习算法上发挥更好的作用的过程。...原创 2020-02-21 15:04:01 · 1338 阅读 · 0 评论 -
Pandas数据处理---数据的读写、数据清洗、数据过滤、数据转换(映射、替换、字符串矢量级运算)、数据合并详细总结
该文从Pandas的数据的读写、数据清洗、数据过滤、数据转换(映射、替换、字符串矢量级运算)、数据合并等都进行了详细的总结和案例说明,是pandas的核心重点知识。目录一、数据读写处理文档1.1、pandas数据的加载+写入1.2、pandas写出数据到内存二、数据清洗2.1、缺失值处理发现缺失值丢弃缺失值填充缺失值2.2、重复值处理发现重复值删除重...原创 2020-01-05 12:24:04 · 5405 阅读 · 0 评论 -
机器学习数据集的划分
# 工具:python3 数据分析挖掘常用库导入#固定导入import numpy as np #科学计算基础库,多维数组对象ndarrayimport pandas as pd #数据处理库,DataFrame(二维数组)import matplotlib as mpl #画图基础库import matplotl...原创 2020-02-22 14:14:29 · 2106 阅读 · 1 评论 -
机器学习的基本概念、算法分类、开发流程、数据集划分、工具介绍(python的scikit-learn)
1、机器学习基本概念。2、机器学习数据集的构成。3、算法分类。4、机器学习开发流程。5、学习可用数据集。6、scikit-learn工具介绍。7、sklearn数据集。8、sklearn数据集返回值解释。9、数据集的划分。...原创 2020-02-19 18:46:40 · 464 阅读 · 1 评论 -
探索变量之间的关系(python3)
在做数据分析的过程中。我们往往是--理解需求--获取数据--清洗数据--简单描述统计--统计型分析报告; 其实到这里还没完。如果我们还需要深入探索数据的价值,那么,单变量的分布检验--探索变量间的关系--建立关系模型--评估--总结等。 接下来就来看看数据分析的其中重要的一环--探索变量间的关系。探索数据变量之间是否存在某种关系/关联。大致步骤有:变量的类型:类别型/数值型可视化给出可能的方向:散点图、箱型图、直方图、...需建立更严格的分析方式:假设检验。原创 2020-02-10 15:42:29 · 8085 阅读 · 0 评论 -
单变量的样本分布检验(python3)
单变量的样本分布检验。1.用数字特征检验。2. T-test(严格的检验)。3. K-S test (严格的检验)。4. 卡方检验。正态分布检验。原创 2020-02-08 18:07:43 · 2427 阅读 · 1 评论 -
python数据分析基础及流程回顾,重点数据预处理之异常值发现与处理
数据分析流程。任务描述:–理解数据类型和数据结构–载入数据–清洗数据–做简单的统计分析–使用基础的可视化。数据分析的步骤:–获取数据–数据预处理–数据分析–数据挖掘–可视化展现。数据预处理(数据分析和挖掘的瓶颈):–获取数据–载入数据–清洗数据:异常–清洗数据:维度–清洗数据:粒度–缺失值;无效值;格式转换;命名变换;类型转换。原创 2020-02-07 04:47:09 · 1279 阅读 · 0 评论