![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 78
平原2018
大模型、知识库、智能问答,需要帮助,请留言或者私信
展开
-
机器学习入门基础
什么是人工智能? 百度百科:人工智能( Artificial Intelligence),英文缩写为 AI。它是研究使计算机来模拟人的某些思维过程和智能 行为(如学习、推理、思考、规划等)的学科,主要包 括计算机实现智能的原理、制造类似于人脑智能的计算 机,使计算机能实现更高层次的应用。人工智能将涉及 到计算机科学、心理学、哲学和语言学等学科。人工智能的战略意义: 在生产制造业...原创 2018-06-15 13:45:51 · 823 阅读 · 0 评论 -
fp_growth(Frequent Pattern tree)关联算法
注意:此方法笔者已经试过,计算关联词,在跑大批量数据模型的时候,很消耗内存。打个比方,如果你的数据集足够大,内存全部能吃完。具体一点,每个子列表有10个词,共500个子列表,16个G不够用的,可以想象上万条以上是什么情况。改进的方法:1、upgraded FP-growsth, UFP 算法http://www.bjutxuebao.com/bjgydx/article/2016/0254-...原创 2018-11-16 10:44:03 · 781 阅读 · 0 评论 -
偏差(bias)和方差(variance)区别:
偏差(bias)和方差(variance)区别: 偏差指的是算法的期望预测与真实预测之间的偏差程度, 反应了模型本身的 拟合能力; 方差度量了同等大小的训练集的变动导致学习性能的变化, 刻画了数据扰动 所导致的影响。 当模型越复杂时, 拟合的程度就越高, 模型的训练偏差就越小。 但此时如果 换一组数据可能模型的变化就会很大, 即模型的方差很大。 所以模型过于复 杂的时候会导致过拟合。...原创 2018-09-05 20:23:15 · 4161 阅读 · 0 评论 -
UserCF和ItemCF的综合比较(待续)
UserCF是推荐系统领域较为古老的算法, 1992年就已经在电子邮件的个性化推荐系统Tapestry中得到了应用, 1994年被GroupLens①用来实现新闻的个性化推荐,后来被著名的文章分享网站Digg用来给用户推荐个性化的网络文章。 ItemCF则是相对比较新的算法,在著名的电子商务网站亚马逊和DVD租赁网站Netflix中得到了广泛应用。 UserCF给用户推荐那些和他有共同兴 趣爱...原创 2018-09-08 17:55:19 · 2461 阅读 · 0 评论 -
GBDT和XGBoost区别-结论:
GBDT和XGBoost区别(百面机器学习): 1、GBDT是机器学习算法,XGBoost是该算法的工程实现 2、在使用CART作为基分类器时,XGBoost显式的加入正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力 3、GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数 4、传统的GBDT采用CART...原创 2018-09-14 18:10:04 · 1932 阅读 · 0 评论 -
机器学习--随机变量分布
学习目标: 目标一、了解概率论与统计学基础知识 目标二、掌握描述性统计分析知识 目标三、掌握概率论基本概念 目标四、掌握条件概率与贝叶斯公式 目标五、掌握随机变量与各种分布 目标六、掌握方差与协方差 目标七、掌握大数定律、中心极限定理与抽样分布 目标八、掌握点估计、区间估计与参数估计 目标九、掌握回归分析、掌握方差分析、时间序列分析 一、随机变量:(1)、 离散型随...原创 2018-06-14 20:01:59 · 1469 阅读 · 0 评论 -
Numpy金融函数的应用
一、专用函数import numpy as np#元素抽取a = np.arange(10)# 生成一个抽取数组元素的花式索引condition = a %2 ==0 #赋值运算符,算术运算符,逻辑运算符优先级print("花式索引:",condition)# np.extract()根据给点的条件提取数组元素even = np.extract(condition,a...原创 2018-06-27 21:03:29 · 1224 阅读 · 0 评论 -
机器学习之数据预备、清洗与特征工程
一、概念: 数据预处理:将未加工数据转换成适合分析的形式,包括多数据源的数据融合、 数据清洗、维规约等等。 二、为什么要进行预处理: 1-1 数据预处理简介 原始数据普遍存在问题,必须加以处理才能用于分析,一方面要提高数据质量,另一方 面为了更好的使数据适应特定的数据挖掘技术及工具。 举例①: 将连续值(长度)转化为离散的分类值属性(短,中,长),以便应用特定算法模型。 举例...原创 2018-07-01 17:06:18 · 2071 阅读 · 0 评论 -
极大似然估计详解
https://blog.csdn.net/zengxiantao1994/article/details/72787849转载 2019-03-19 11:03:54 · 320 阅读 · 0 评论