【机器学习与深度学习】
机器学习与深度学习
汪雯琦
广告平台商业化策略·Python·数据分析·数据挖掘·机器学习·人工智能
展开
-
自己对LightGBM的一些理解
作为三大知名GBDT的实现之一LightGBM的优点:1.就是快的2.同时精度还高工程上的实现比Xgboost要好很多,所以计算比较快,看了原文才知道这内有乾坤,而且都是很容易理解的道理。快:开门见山的说,LGB(LightGBM,下文均采用此缩写)不需要通过所有样本计算信息增益了,而且内置特征降维技术,所以更快。至于LGB精度高的原因,论文中并没有给出明确的答案,但我看完后心里却有了...原创 2020-04-02 10:48:46 · 757 阅读 · 1 评论 -
参数估计之矩估计和极大似然估计概述
参数估计参数估计:是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。点估计:依据样本估计总体分布中所含的未知参数或未知参数的函数。区间估计(置信区间的估计):依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的...原创 2020-03-26 23:35:23 · 6745 阅读 · 1 评论 -
skewness and kurtosis偏态和峰度的解释和演示、数据的偏度和峰度——df.skew()、df.kurt()
skewness (偏态)正偏态分布(positive skewness distribution)是指频数分布的高峰偏于左侧,偏态系数为正值的频数分布形态。偏态分布分为正偏态和负偏态。当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。定义上偏度是样本的三阶标准化矩,定义式如下,其中k2,k3分别表示二阶、三阶中心矩:还可以这么来看:kurtosis(峰度)==峰度(peake...原创 2020-03-25 16:28:04 · 12752 阅读 · 1 评论 -
总体分布概况符合无界约翰逊分布(johnsonsu)的情况
前提:有一列price的数据y = Train_data['price']我们看看他符合什么总体分布无界约翰逊分布johnsonsu?正态norm?对数正态(比正态偏上一点)lognorm?代码:import scipy.stats as stimport seaborn as snsy = Train_data['price']plt.figure(1); plt.title...原创 2020-03-25 16:06:04 · 7761 阅读 · 4 评论 -
分类算法常见的评估指标和案例演示
一般问题评价指标说明:什么是评估指标:评估指标即是我们对于一个模型效果的数值型量化。(有点类似与对于一个商品评价打分,而这是针对于模型效果和理想效果之间的一个打分)一般来说分类和回归问题的评价指标有如下一些形式:分类算法常见的评估指标如下:对于二类分类器/分类算法,评价指标主要有accuracy, [Precision,Recall,F-score,Pr曲线],ROC-AUC曲线。...原创 2020-03-25 11:10:30 · 907 阅读 · 0 评论 -
分类指标precision精准率计算时报错 Target is multiclass but average='binary'. Please choose another average setti
报错 Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].解决:加上参数,average='micro'源代码:# precisionimport numpy as npfrom sklea...原创 2020-03-25 10:53:47 · 4258 阅读 · 0 评论 -
回归预测常见的评估指标及计算案例
回归预测常见的评估指标平均绝对误差(Mean Absolute Error,MAE)均方误差(Mean Squared Error,MSE)平均绝对百分误差(Mean Absolute Percentage Error,MAPE)均方根误差(Root Mean Squared Error)R2(R-Square)平均绝对误差MAE平均绝对误差MAE,其能更好地反映预测值与真实值误...原创 2020-03-25 10:28:45 · 3839 阅读 · 0 评论 -
【精华博客】数据挖掘工作中经验性的算法总结,建议收藏,超级实用!!!
工作中的实际问题都很复杂而且基本都是非线性的我们需要一个复杂的模型线性回归或者逻辑回归是没有什么用处的【决策树+集成学习】 优先选择如XGBoost就是:梯度下降+Boosting+决策树拿到问题之后,不要重复造轮子,建立一个模型,不要闭着眼睛选先参考别人所做的事情==(github看别人选择的什么算法)==...原创 2020-03-13 23:43:17 · 489 阅读 · 1 评论 -
【聚类分析】机器学习中聚类分析的简单详细案例,小白也能做!
文章目录生成一些数据1.导入sklearn的包和画图的包2.生成数据3.查看x4.查看y5.看一下点的分布 散点图聚类Kmeans进行分类1.建立模型2.训练模型3.获取分类结果4.绘制分类结果散点图尝试分成三类1.建立模型2.训练模型3.结果4.绘图查看生成一些数据1.导入sklearn的包和画图的包from sklearn.datasets.samples_generator impor...原创 2020-03-09 23:40:40 · 3554 阅读 · 0 评论 -
GBDT(梯度下降+boosting+决策树)算法及XGBoost(二阶泰勒展开+boosting+决策树+正则化)算法
算法:原创 2020-03-08 21:40:39 · 902 阅读 · 0 评论 -
bagging集成与boosting集成的区别一览
原创 2020-03-08 21:05:24 · 393 阅读 · 0 评论 -
你真的知道集成学习中AdaBoost的构造过程吗?
1.初始化训练数据权重相等,训练第一个学习器;2.计算该学习器在训练数据中的错误率;3.计算该学习器的投票权重:4.根据投票权重对训练数据重新赋权,将下一轮学习器的注意力集中在错误的数据上。5.重复执行1-4步m次。6.对m个学习器进行加权投票...原创 2020-03-08 19:55:03 · 215 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之神经网络NN(五):神经网络案例DNN文本多分类——IMDB电影评论文本的神经网络分类
文章目录7.5 案例:DNN文本多分类学习目标7.5.1 IMDB电影评论文本的神经网络分类参数7.5 案例:DNN文本多分类学习目标目标无应用应用tf estimator完成文本分类7.5.1 IMDB电影评论文本的神经网络分类目的:对IMDB电影评论数据进行训练,预测分类步骤:1、电影评论数据读取2、模型输入特征列指定3、模型训练与保存1、电...原创 2020-03-07 18:22:34 · 802 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之神经网络NN(四):词向量-word2vec、Word2Vec模型介绍、统计语言模型、神经网络语言模型NNLMNNLM、Word2Vec案例Word2vec、词向量工具使用
文章目录7.4 词向量-word2vec学习目标7.3.1 Word2Vec模型介绍7.3.1.1 为什么学习词嵌入7.3.1.2 词向量是什么7.3.1.3 词向量训练来源思想-统计语言模型统计语言模型案例统计语言模型缺点7.3.1.4 神经网络语言模型NNLMNNLM神经网络语言模型例子7.3.1.4 Word2Vec举例:CBOW前向计算与向量(参数)更新推导7.3.1.5 拓展- Word...原创 2020-03-07 18:21:22 · 1835 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之神经网络NN(三):神经网络分类案例——美国普查数据神经网络分类
文章目录7.3 案例:神经网络分类学习目标7.3.1 美国普查数据神经网络分类7.3.2 tf.data7.3.3 特征处理tf.feature_colum7.3 案例:神经网络分类学习目标目标掌握tf.dataset使用掌握tf.feature_column使用应用应用tf.estimator进行神经网络分类案例7.3.1 美国普查数据神经网络分类将tf.est...原创 2020-03-07 18:16:34 · 1297 阅读 · 1 评论 -
简单粗暴理解与实现机器学习之神经网络NN(二):神经网络多分类原理与反向传播原理、神经网络计算输出、softmax回归、梯度下降算法、向量化编程、激活函数的选择等等
文章目录7.2 神经网络多分类原理与反向传播原理学习目标7.2.1 神经网络计算输出7.2.3 softmax回归那么如何去衡量神经网络预测的概率分布和真实答案的概率分布之间的距离?7.2.4 交叉熵损失7.2.4.1 公式7.2.5 梯度下降算法7.2.6 反向传播算法导数7.2.6.1 导数7.2.6.2 导数计算图7.2.6.3 链式法则7.2.6.4 逻辑回归的梯度下降7.2.7 向量化编...原创 2020-03-07 18:13:33 · 1304 阅读 · 1 评论 -
简单粗暴理解与实现机器学习之神经网络NN(一):神经网络基础详谈、感知器PLA、playground使用、神经网络发展史
文章目录7.1 神经网络基础学习目标7.1.1 神经网络7.1.1.1 感知机(PLA: Perceptron Learning Algorithm))7.1.2 playground使用7.1.2.1 playground简单两类分类结果但是这种结构的线性的二分类器,但不能对非线性的数据并不能进行有效的分类。如下面异或问题例子:相当于给出这样的数据7.1.2.2 单神经元复杂的两类-playgr...原创 2020-03-07 18:02:26 · 1035 阅读 · 0 评论 -
tensoflow模型训练后怎么保存?模型训练了一半中断怎么继续训练?模型怎么加载使用?这里都有~~~
文章目录模型的保存方法第一步:实例化第二步:模型的保存案例训练了一半的模型继续训练第一步:加载之前的模型案例模型的保存方法第一步:实例化在会话的前面# 添加一个saver保存模型!!!!!!!!!!!!!!saver = tf.train.Saver()#实例化第二步:模型的保存saver.save(sess, "./summary/ckpt/linear/linear_regre...原创 2020-03-06 23:27:23 · 7260 阅读 · 1 评论 -
简单粗暴理解与实现机器学习之聚类算法(八):机器学习算法选择指导
聚类算法文章目录聚类算法学习目标6.8 算法选择指导**关于在计算的过程中,如何选择合适的算法进行计算,可以参考scikit learn官方给的指导意见:**算法总结学习目标掌握聚类算法实现过程知道K-means算法原理知道聚类算法中的评估模型说明K-means的优缺点了解聚类中的算法优化方式应用Kmeans实现聚类任务6.8 算法选择指导关于在计算的过程中,如何选择...原创 2020-03-06 21:36:59 · 443 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之聚类算法(七):聚类算法案例:探究用户对物品类别的喜好细分降维
聚类算法文章目录聚类算法学习目标6.7 案例:探究用户对物品类别的喜好细分降维1 需求2 分析3 完整代码学习目标掌握聚类算法实现过程知道K-means算法原理知道聚类算法中的评估模型说明K-means的优缺点了解聚类中的算法优化方式应用Kmeans实现聚类任务6.7 案例:探究用户对物品类别的喜好细分降维数据如下:order_products__prior.csv...原创 2020-03-06 21:36:45 · 1330 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之聚类算法(六):【特征工程】-特征降维、特征选择、主成分分析(PCA)、案例
聚类算法文章目录聚类算法学习目标6.6 特征降维1 降维1.1 定义1.2 降维的两种方式2 特征选择2.1 定义2.2 方法2.3 低方差特征过滤2.3.1 API2.3.2 数据计算2.4 **相关系数**2.4.1 皮尔逊相关系数(Pearson Correlation Coefficient)2.4.2 斯皮尔曼相关系数(Rank IC)3 主成分分析3.1 什么是主成分分析(PCA)3...原创 2020-03-06 21:36:31 · 1983 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之聚类算法(五):优化、Canopy算法配合初始聚类、K-means++、二分k-means、k-中心聚类、Kernel k-means、ISODATA、Mini Batch
聚类算法文章目录聚类算法学习目标6.5 算法优化1 Canopy算法配合初始聚类1.1 Canopy算法配合初始聚类实现流程1.2 Canopy算法的优缺点2 K-means++3 二分k-means4 k-medoids(k-中心聚类算法)5 Kernel k-means(了解)6 ISODATA(了解)7 Mini Batch K-Means(了解)8 总结学习目标掌握聚类算法实现过程...原创 2020-03-06 21:36:17 · 1169 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之聚类算法(四):模型评估、误差平方和SSE、“肘”方法 、轮廓系数法、CH系数
聚类算法文章目录聚类算法学习目标6.4 模型评估1 误差平方和(SSE \The sum of squares due to error):2 **“肘”方法 (Elbow method)** — K值确定3 轮廓系数法(Silhouette Coefficient)4 CH系数(Calinski-Harabasz Index)5 总结学习目标掌握聚类算法实现过程知道K-means算法原...原创 2020-03-06 21:36:00 · 11403 阅读 · 5 评论 -
简单粗暴理解与实现机器学习之聚类算法(三):聚类算法实现流程、k-means聚类步骤、案例
聚类算法文章目录聚类算法学习目标6.3 聚类算法实现流程1 k-means聚类步骤2 案例练习3 小结学习目标掌握聚类算法实现过程知道K-means算法原理知道聚类算法中的评估模型说明K-means的优缺点了解聚类中的算法优化方式应用Kmeans实现聚类任务6.3 聚类算法实现流程k-means其实包含两层内容:K : 初始中心点个数(计划聚类数)means:求中心点...原创 2020-03-06 21:35:41 · 950 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之聚类算法(二):聚类算法api初步使用、案例
聚类算法文章目录聚类算法学习目标6.2 聚类算法api初步使用1 api介绍2 案例2.1流程分析2.2 代码实现学习目标掌握聚类算法实现过程知道K-means算法原理知道聚类算法中的评估模型说明K-means的优缺点了解聚类中的算法优化方式应用Kmeans实现聚类任务6.2 聚类算法api初步使用1 api介绍sklearn.cluster.KMeans(n_clu...原创 2020-03-06 21:35:25 · 528 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之聚类算法(一):聚类算法的概念、在现实中的应用、聚类算法与分类算法最大的区别
聚类算法文章目录聚类算法学习目标6.1 聚类算法简介1 认识聚类算法1.1 聚类算法在现实中的应用1.2 聚类算法的概念1.3 聚类算法与分类算法最大的区别学习目标掌握聚类算法实现过程知道K-means算法原理知道聚类算法中的评估模型说明K-means的优缺点了解聚类中的算法优化方式应用Kmeans实现聚类任务6.1 聚类算法简介1 认识聚类算法使用不同的聚类准则,...原创 2020-03-06 21:35:08 · 940 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之集成学习(三):Boosting集成原理、实现过程、api介绍、GBDT、XGBoost、泰勒展开式
集成学习文章目录集成学习学习目标5.3 Boosting1.boosting集成原理1.1 什么是boosting1.2 实现过程:1.训练第一个学习器2.调整数据分布3.训练第二个学习器4.再次调整数据分布5.依次训练学习器,调整数据分布**6.整体过程实现**1.3 api介绍2 GBDT(了解)2.1 梯度的概念(复习)2.2 GBDT执行流程2.3 案例2.4 GBDT主要执行思想3.X...原创 2020-03-06 21:34:49 · 540 阅读 · 3 评论 -
简单粗暴理解与实现机器学习之集成学习(二):Bagging集成原理、随机森林构造过程、 随机森林api介绍、随机森林预测案例、bagging集成优点
集成学习文章目录集成学习学习目标5.2 Bagging1 Bagging集成原理2 随机森林构造过程3 随机森林api介绍4 随机森林预测案例5 bagging集成优点学习目标了解集成学习中主要解决的两个核心任务知道bagging集成原理知道随机森林决策树的建立过程知道为什么需要随机有放回(Bootstrap)的抽样应用RandomForestClassifie实现随机森林算法知...原创 2020-03-06 21:34:29 · 578 阅读 · 0 评论 -
简单粗暴理解与实现机器学习之集成学习(一):集成学习算法简介、机器学习的两个核心任务、集成学习中boosting和Bagging
集成学习文章目录集成学习学习目标5.1 集成学习算法简介1 什么是集成学习2 **复习:机器学习的两个核心任务**3 集成学习中boosting和Bagging学习目标了解集成学习中主要解决的两个核心任务知道bagging集成原理知道随机森林决策树的建立过程知道为什么需要随机有放回(Bootstrap)的抽样应用RandomForestClassifie实现随机森林算法知道boo...原创 2020-03-06 21:34:00 · 816 阅读 · 1 评论 -
tensorflow中命名空间和tensorboard可视化的线性回归案例(附源代码,解释详细)
源代码地址:https://github.com/w1449550206/Linear-regression-with-tensorflow.gitimport tensorflow as tfwith tf.variable_scope("lr_model"): def linear_regression():#定义名字 # 1)准备好数据集:y = 0.8x + ...原创 2020-03-06 21:22:59 · 304 阅读 · 0 评论 -
【利用Tensorflow 实现和训练线性回归 (Linear Model)】(超级详细,附源代码)
附上github的源代码地址:https://github.com/w1449550206/Linear-regression-with-tensorflow.git文章目录1.线性回归的介绍2.训练数据的获取3.步骤分析4.相关的API运算矩阵运算平方均值误差梯度下降优化5.完整代码1.准备好数据集,我们制造y=0.8x+0.7的100个样本2.建立线性模型,目标:求出权重W和偏置b3.随机初...原创 2020-03-06 18:11:58 · 1821 阅读 · 3 评论 -
【TensorFlow中的变量(Variables)】变量的特点、创建变量、查看变量在值、修改变量的命名空间等(非常详细,建议收藏)
文章目录变量1.变量的特点2.创建变量查看打印出来的是什么打印变量的值【注意一定要初始化变量,然后还要在会话中运行一下】2.使用tf.variable_scope()修改变量的命名空间变量TensorFlow变量是表示程序处理的共享持久状态的最佳方法。变量通过 tf.Variable OP类进行操作。变量是tensor的一种1.变量的特点1.存储持久化2.可修改值3.可指定被训练2....原创 2020-03-06 16:54:43 · 537 阅读 · 0 评论 -
【Tensorflow中创建张量的方法合集】zeros,ones,fill,constant,truncated_nomal,random_nomal,Variable,placeholder等
文章目录固定值张量**tf.zeros(shape, dtype=tf.float32, name=None)****tf.zeros_like(tensor, dtype=None, name=None)****tf.ones(shape, dtype=tf.float32, name=None)****tf.ones_like(tensor, dtype=None, name=None)***...原创 2020-03-06 11:46:36 · 581 阅读 · 0 评论 -
简单粗暴的Tensoflow框架从入门到精通(六):tf.estimator使用入门、案例:使用美国普查数据分类
文章目录6.6 tf.estimator使用入门学习目标6.6.1 tf.estimator介绍6.6.1.1 Premade Estimators6.6.2 案例:使用美国普查数据分类6.6.2.1 案例实现6.6 tf.estimator使用入门学习目标目标知道tf.estimator的使用流程了解什么是premade estimator应用应用tf.estimator...原创 2020-03-05 23:36:57 · 634 阅读 · 0 评论 -
简单粗暴的Tensoflow框架从入门到精通(五):Tensoflow的API使用2.0建议
文章目录2.5 TFAPI使用2.0建议学习目标2.5.2 TF2.0最新架构图2.5.3 API2.5 TFAPI使用2.0建议学习目标目标无应用无2.5.2 TF2.0最新架构图饱受诟病TF1.0的API混乱删除 queue runner 以支持 tf.data。删除图形集合。API 符号的移动和重命名。tf.contrib 将从核心 TensorF...原创 2020-03-05 23:35:35 · 443 阅读 · 0 评论 -
简单粗暴的Tensoflow框架从入门到精通(四):案例:实现线性回归的训练
文章目录2.4 案例:实现线性回归学习目标2.4.1 线性回归原理复习2.4.2 案例:实现线性回归的训练1 案例确定2 步骤分析4 实现完整功能6 变量的trainable设置观察2.4.3 增加其他功能2 增加命名空间3 模型的保存与加载4 命令行参数使用完整代码练习:将面向过程改为面向对象2.4 案例:实现线性回归学习目标目标应用op的name参数实现op的名字修改应用vari...原创 2020-03-05 23:32:14 · 692 阅读 · 0 评论 -
简单粗暴的Tensoflow框架从入门到精通(三):会话、张量、变量OP、创建张量的指令、张量的变换、张量的数学运算
文章目录2.3 会话、张量、变量OP学习目标2.3.1 会话2.3.1.1 __init__(target='', graph=None, config=None)参数2.3.1.2 会话的run()及其参数2.3.1.3 feed操作2.3.2 张量(Tensor)2.3.2.1 张量的类型2.3.2.2 张量的阶2.3.3 创建张量的指令2.3.4 张量的变换2.3.4.1 类型改变2.3.4...原创 2020-03-05 23:30:29 · 657 阅读 · 0 评论 -
简单粗暴的Tensoflow框架从入门到精通(二):图与TensorBoard、图结构、相关操作、TensorBoard的可视化学习、常见OP、指令名称
文章目录2.2 图与TensorBoard学习目标2.2.1 什么是图结构2.2.2 图相关操作1 默认图2 创建图2.2.3 TensorBoard:可视化学习1 数据序列化-events文件2 启动TensorBoard2.2.4 OP2.2.4.1 常见OP2.2.4.2 指令名称2.2 图与TensorBoard学习目标目标说明图的基本使用应用tf.Graph创建图、tf.g...原创 2020-03-05 18:19:58 · 461 阅读 · 1 评论 -
简单粗暴的Tensoflow框架从入门到精通(一):TensorFlow实现一个加法运算、TensorFlow结构分析、TensorFlow数据流图介绍
文章目录2.1 TF数据流图学习目标2.1.1 案例:TensorFlow实现一个加法运算2.1.1.1 代码2.1.1.2 TensorFlow结构分析2.1.2 数据流图介绍2.1 TF数据流图学习目标目标说明TensorFlow的数据流图结构应用无内容预览2.1.1 案例:TensorFlow实现一个加法运算1 代码2 TensorFlow结构分析...原创 2020-03-05 10:47:54 · 2698 阅读 · 2 评论 -
如何在Jupyter Notebook切换conda虚拟环境
首先激活添加入的conda环境Linux&mac环境:source activate name_testWindows:conda activate name_test安装ipykernelconda install ipykernel进入Jupyter Notebookjupyter notebook此时可能仍然没有你想要的kernel,那么我们手动创建。...原创 2020-03-04 11:01:54 · 3298 阅读 · 0 评论