qq_32577043-CSDN博客

原创利用Python进行数据分析：numpy

4.1 numpy ndarry 多维数组对象import numpy as npdata=np.random.randn(2,3)dataarray([[ 0.07943712, 0.21401822, -0.25516892], [-0.97428859, -0.59608964, -1.86263972]])data*10array([[ 0.7943...

2019-06-23 22:58:51 296

原创机器学习实战-决策树实践

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport math## 计算信息熵def calcShannonEnt(dataSet): numEntries=len(dataSet) labelCounts={} shannonEnt=0.0 for fe...

2019-06-14 23:14:04 185

一. 决策树思想决策树的本质：从训练数据集中归纳出一组分类规则。与训练数据集不相矛盾的决策树可能有多个，也可能一个都没有。我们需要的是一个与训练数据集矛盾较小的决策树，同时具有很好的泛化能力。从概率模型角度来看：决策树学习是由训练数据集估计条件概率模型，基于特征空间划分的类的条件概率模型有很多个，我们选择的模型不仅对训练数据集有很好的拟合，而且对未知的数据有很好的预测。决策树的损失函数：决策...

2019-06-10 21:50:16 611

原创大数据-Mapreduce

2019-06-06 18:41:53 139

原创机器学习中的熵

信息量香农认为“信息是用来消除随机不确定性的东西”，也就是说衡量信息量大小就是看这个信息消除不确定性的程度。“太阳从东方升起了”这条信息没有减少不确定性。因为太阳肯定从东面升起。这是句废话，信息量为0。“吐鲁番下中雨了”，这条信息比较有价值。太阳明天从东方升起的概率是 100%，吐鲁番下中雨的概率是2%。事件发生的概率越大，说明事件发生的确定性越大。吐鲁番下雨这个事件，直接消除98%不下雨...

2019-06-04 22:13:11 222

原创李宏毅机器学习任务五

一. 推导LR损失函数1.通过对数似然函数来取得参数www二分类，标签设置为 y1=1，y0=0，有m个样本。L(w)=∏imfw(x1)⋅fw(x2)⋅(1−fw(x3))...fw(xm)L(w)=\prod_{i}^{m}f_w(x_1)\cdot f_w(x_2)\cdot(1-f_w(x_3))...f_w(x_m)L(w)=∏imfw(x1)⋅fw(x2)⋅(1−fw...

2019-05-29 17:42:37 125

原创李宏毅机器学习任务四

贝叶斯公式P(Ci∣x)=P(x∣Ci)P(Ci)∑i=1cP(x∣Ci)P(Ci)P(C_{i}|x)=\frac{P(x|C_{i})P(C_{i})}{\sum_{i=1}^{c}P(x|C_{i})P(C_{i})}P(Ci∣x)=∑i=1cP(x∣Ci)P(Ci)P(x∣Ci)P(Ci)x为一个样本，是一个特征向量 C为所有类别的集合 CiC_iCi为第iii类。...

2019-05-25 22:04:09 171

原创手写梯度下降

import pandas as pdimport numpy as nptrain=pd.read_csv('train.csv')train.head() Date stations observation 0 1 2 3 4 5 ...

2019-05-22 20:22:50 440

原创李宏毅机器学习任务二

偏差和方差偏差:偏差是指所有采样得到大小为m的训练数据集训练出的所有模型的输出平均值和真实模型输出之间的偏差方差:方差是指所有采样得到大小为m的训练数据集训练出的所有模型的输出的方差公式推导见西瓜书P45从Boosting和Bagging角度解释偏差和方差Bagging 是从降低方差的角度，多个弱分类器的模型取平均。Boosting是从降低偏差的角度入手，训练好一个弱分类器后，利...

2019-05-17 21:58:51 303

转载李宏毅机器学习1~3

大数定理切比雪夫大数定理：该定理表明，当n很大的时候，随机变量 X1,X2…Xn的算术平均值依概率收敛于它的期望值，说明了平均值具有稳定性。伯努利大数定理：该定理表明：在独立重复实验中，事件A发生的频率依概率收敛于事件A出现的概率，证明了频率的稳定性。在实际应用中，当实验次数很大时，可以用事件发生的频率来估计事件的概率中心极限定理在许多实际问题中，有很多随机现象可以看作是许多因素的独立...

2019-05-13 21:05:25 166

原创 LightGBM算法梳理

LightGBM算法梳理LightGBM起源Histogram VS pre-sorted预排序算法(pre-sorted)直方图算法（Histogram）leaf-wise VS level-wise按层生长(level-wise)Leaf-wise特征并行和数据并行特征并行数据并行顺序访问梯度直接支持类别特征代码调参参考资料LightGBM起源lightGBM包含两个关键点：(1)ligh...

2019-01-10 21:12:18 1288

原创 XGBoost算法学习记录

这里写自定义目录标题XGBoost算法梳理XGBoost原理分裂节点算法打分函数计算举例XGBoost算法梳理你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。XGBoost原理XGBoost目标函数定义为： constant 为一个常数，正则项Ω(ft)\Ome...

2019-01-08 18:08:05 182

qq_32577043的博客