机器学习
文章平均质量分 92
Python小萝卜
这个作者很懒,什么都没留下…
展开
-
二分类模型评估指标
二分类问题最终结果分类可以用混淆矩阵表示为: 预测 0 1 实际 0 a b 1 c d 其中,a表示预测为0中预测对的样本个数;b表示预测为1中预测错的样本个数;c表示预测为0中预测错的样本个数;d表示预测为1中预测对的样本个数。 则: 准确率=(a+d)/(a+b+c+d) 召回率(覆盖率)=d/(c+d),召回率是重要的指标,如果分类...原创 2020-10-04 16:20:08 · 1246 阅读 · 0 评论 -
因子分析在python上的实现
因子分析(Factor Analysis)是指研究从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。例如,一个学生的数学、物理、化学成绩都很好,那么潜在的共性因子可能是智力水平高。因此,因子分析的过程其实是寻找共性因子和个性因子并得到最优解释的过程。 因子分析有三个核心问题:一是检验是否适合因子分析,二是如何构造因子变量,三是如何对因子...原创 2020-03-24 14:19:09 · 5036 阅读 · 3 评论 -
主成分分析在python上的实现
主成分分析(PCA)是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法,PCA的思想是将n维特征映射到k维上(k<n),这k维特征称为主成分,是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。 协方差是描述不同变量之间的相关关系,协方差>0时说明 X和 Y是正相关关系,协方差<0时 X和Y是负相关关系,协方差为0时 X和...原创 2020-03-24 10:48:52 · 4811 阅读 · 2 评论 -
关联规则算法(Apriori/Fp-growth)在Python上的实现
定义 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又如“‘C语言’课程优秀的同学,在学习‘数...原创 2018-06-27 10:36:49 · 15723 阅读 · 5 评论 -
pyspark:FPgrowth
原理https://blog.csdn.net/sunbow0/article/details/45602415https://www.cnblogs.com/haozhengfei/p/c9f211ee76528cffc4b6d741a55ac243.html代码from pyspark import SparkConffrom pyspark.sql import Spar...原创 2019-06-03 11:02:08 · 4197 阅读 · 12 评论 -
pyspark:随机森林
废话不多说,直接上代码:from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification impo...原创 2019-06-04 11:47:08 · 4381 阅读 · 1 评论 -
pyspark:GBDT
from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.feature import StringIndexerfrom pyspark.ml.classification import GBTClassifi...原创 2019-06-04 13:46:48 · 3058 阅读 · 0 评论 -
pyspark:k均值
from pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.ml.linalg import Vectorsfrom pyspark.ml.clustering import KMeansimport pandas as pdif __name__ == "__main__": a...原创 2019-06-04 14:48:24 · 858 阅读 · 0 评论 -
随机森林在python上的实现
默认参数class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’, max_...原创 2018-09-30 16:14:05 · 2394 阅读 · 0 评论 -
python特征选择
回归问题特征选择波士顿房价数据from sklearn.datasets import load_boston from sklearn.ensemble import RandomForestRegressor #Load boston housing dataset as an example boston = load_boston() X = boston["d...原创 2019-04-26 15:52:40 · 1875 阅读 · 0 评论 -
协同过滤推荐算法在python上的实现
1.引言 信息大爆炸时代来临,用户在面对大量的信息时无法从中迅速获得对自己真正有用的信息。传统的搜索系统需要用户提供明确需求,从用户提供的需求信息出发,继而给用户展现信息,无法针对不同用户的兴趣爱好提供相应的信息反馈服务。推荐系统相比于搜索系统,不需要提供明确需求,便可以为每个用户实现个性化推荐结果,让每个用户更便捷地获取信息。它是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣...原创 2019-03-09 15:24:06 · 16523 阅读 · 36 评论