- 博客(65)
- 收藏
- 关注
原创 Day04-概率论与数理统计-数理统计(DataWhale)
八、样本及抽样分布8.1 总体与样本总体:个体、总体分布样本:抽样、样本变量、样本观测值抽样:简单随机抽样【独立同分布】样本的分布: 变量:(X1,X2,...,Xn)(X_1,X_2,...,X_n)(X1,X2,...,Xn) 分布:F(x1,x2,...,xn)=F(x1)F(x2)⋅⋅⋅F(xn)F(x_1,x_2,...,x_n)=F(x_1)F(x_2)···F(x_n)F(x1,x2,...,xn)=F(x1)F(x2)⋅⋅⋅F(xn)
2021-11-04 15:13:05 271
原创 Day04-概率论与数理统计-随机变量的数字特征与大数定律中心极限定理(DataWhale)
六、数字特征6.1 期望6.1.1 离散型P{X=xk}=Pk,若∑k=1∞xkPkP\{X=x_k\}=P_k,若\sum_{k=1}^{\infty}x_kP_kP{X=xk}=Pk,若∑k=1∞xkPk绝对收敛,则随机变量XXX的数学期望E(X)=∑k=1∞xkpkE(X)=\sum_{k=1}^{\infty}x_kp_kE(X)=∑k=1∞xkpk数学期望并不一定都存在,∑k=1∞xkPk\sum_{k=1}^{\infty}x_kP_k∑k=1∞xkPk需要绝对收
2021-11-02 08:48:15 299
原创 Day03-概率论与数理统计-多维随机变量及其分布(DataWhale)
五、二维随机变量及其分布5.1 联合分布E:试验;Ω:样本空间;X,Y是Ω的两个变量【来自同一样本空间】E:试验;\Omega:样本空间;X,Y是\Omega的两个变量【来自同一样本空间】E:试验;Ω:样本空间;X,Y是Ω的两个变量【来自同一样本空间】联合分布函数:F(x,y)=P{(X≤x)∩P{Y≤y)}=P(X≤x,Y≤y}F(x,y)=P\{(X\leq x)\cap P\{Y\leq y)\}=P(X\leq x,Y\leq y\}F(x,y)=P{(X≤x)∩P{Y≤y)}=P(X≤x,
2021-10-27 16:01:13 278
原创 Day02-概率论与数理统计-一维随机变量及其分布(DataWhale)
二、随机变量事件:{X=a}\{X=a\}{X=a};事件的概率P{X=a}P\{X=a\}P{X=a}离散型随机变量:有限个或者无限可列非离散型随机变量:连续型2.1 离散型随机变量及其概率分布XXX的所有取值xk(k=1,2,...)x_k(k=1,2,...)xk(k=1,2,...)【可以取无穷个,但是要可列】概率函数分布:P(X=xk)=PkP(X=x_k)=P_kP(X=xk)=Pkpk≥0p_k \geq 0pk≥0∑pk=1\sum p_k=1∑pk=
2021-10-27 15:59:19 385
原创 Day01-概率论与数理统计-概率论基础(DataWhale)
一、概率论基础1.1 概念随机试验E在相同的条件下可以重复进行每次试验的可能结果不止一个,并且能事先明确试验的可能结果进行试验之前不能确定哪一个结果会出现样本空间S随机试验的所有可能结果的集合样本点样本空间的元素随机事件试验E的样本空间S的子集基本事件一个样本点组成的单点集频率在相同条件下进行n次试验,在这n次试验中,事件A发生的次数nAn_AnA称为事件A发生的频数,nAn\frac{n_A}{n}nnA称为频次,记作fn(
2021-10-17 21:15:12 165
原创 Day04-线性代数-特征值和特征向量(DataWhale)
七、特征值和特征向量AAA 是n阶方阵,数λ\lambdaλ,若存在非零列向量α⃗\vec{\alpha}α,使得Aα⃗=λα⃗A\vec{\alpha}=\lambda\vec{\alpha}Aα=λα,则λ\lambdaλ是特征值,α⃗\vec{\alpha}α是对应于λ\lambdaλ的特征向量λ\lambdaλ可以为0α⃗\vec{\alpha}α不能为0⃗\vec{0}0,且为列向量Aα⃗=λα⃗λα⃗−Aα⃗=0(λE−A)α⃗=0有非零解的条件是∣λE−A∣=0\begin{
2021-10-17 21:14:14 739
原创 Day03-线性代数-n维向量(DataWhale)
五、n维向量kα⃗=0;k=0或α⃗=0⃗k\vec{\alpha}=0;k=0或\vec{\alpha}=\vec{0}kα=0;k=0或α=05.1 向量间的线性关系零向量可以有由任意向量组表示向量组中任一向量可由向量组表示任意向量可由ε1⃗=(1,0,...,0),ε2⃗=(0,1,...,0),...,εn⃗=(0,0,...,1)\vec{\varepsilon_1}_=(1,0,...,0),\vec{\varepsilon_2}_=(0,1,...,0),...,\vec{\var
2021-10-17 21:11:39 371
原创 Day02-线性代数-矩阵(DataWhale)
二、矩阵2.1 概念同型矩阵:两个矩阵的行数相等、列数也相等非齐次线性方程组:{a11x1+a12x2+...+a1nxn=b1a21x1+a22x2+...+a2nxn=b2......am1x1+am2x2+...+amnxn=bm\begin{cases}a_{11}x_1+a_{12}x_2+...+a_{1n}x_n =b_1 \\a_{21}x_1+a_{22}x_2+...+a_{2n}x_n =b_2\\......\\a_{m1}x_1+a_{m2}x_2+...+a
2021-10-15 10:28:36 326
原创 Day01-线性代数-行列式(DataWhale)
一、行列式1. 性质行列式与他的转置行列式相等两行互换,值变号行列式两行或两列对应相等,行列式的值等于0某一行乘以k,相当于k乘以行列式行列式两行成比例,行列式值为0行列式的某一行的元素是两数之和,则行列式等于两个行列式之和【是和的那一行分开,其余行保持不变】某一行乘以一个数,加到另一行上去,行列式不变2. 行列式计算利用性质化为上三角、下三角直接展开【将某一行或列尽可能多的化出0】观察行和列的和,累加到某一行,化出1出现平方项要注意
2021-10-12 09:13:04 239
原创 Day07-数学基础-经济问题(DataWhale)
一、复利复利公式Am=A(1+r)mA_m = A(1+r)^mAm=A(1+r)mA:本金,r:每一期的利率,m:复利的总期数,AmA_mAm:m期后的余额年利率为r,一年支付1次,t年后的余额At=A(1+r)tA_t = A(1+r)^tAt=A(1+r)t一年支付n次,t年后的余额At=A(1+rn)ntA_t=A(1+\frac{r}{n})^{nt}At=A(1+nr)nt,当n→∞n \rightarrow \inftyn→∞时,limn→∞At=Aert\l
2021-09-29 08:51:40 175
原创 Day04-数学基础-常微分方程(DataWhale)
来源:https://m.bilibili.com/video/BV1H54y1J7Ka?
2021-09-22 22:17:52 117
原创 Day03-数学基础-一元函数微分学(DataWhale)
来源:https://m.bilibili.com/video/BV1H54y1J7Ka?
2021-08-25 21:24:11 128
原创 Day02-数学基础-数列极限(DataWhale)
来源:https://m.bilibili.com/video/BV1H54y1J7Ka?1. 导数和积分的性质① 若f(x)f(x)f(x)是可导的偶函数,则f′(x)f'(x)f′(x)是奇函数② 若f(x)f(x)f(x)是可导的奇函数,则f′(x)f'(x)f′(x)是偶函数③ 若f(x)f(x)f(x)是可导的周期为TTT的周期函数,则f′(x)f'(x)f′(x)是周期为TTT的周期函数④ 连续的奇函数的一切原函数都是偶函数⑤ 连续的偶函数的原函数有且仅有一个原函数是奇函数⑥ 若连
2021-08-21 21:30:54 153
原创 Day05-《西瓜书》-支持向量机(DataWhale)
六、支持向量机**来源:**https://www.bilibili.com/video/BV1Mh411e7VU?p=96.1 间隔与支持向量 训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,+1}D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},y_i\in\{-1,+1\}D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,+1},分类学习的基本思想是:基于训练集D在样本空间中找到一个
2021-07-29 09:11:33 147
原创 Day04-《西瓜书》-神经网络(DataWhale)
五、神经网络(neural networks)5.1 神经元模型(neuron)神经元接收到来自n个其他神经元传递的输入信号,这写信号通过带权重的连接进行传递,神经元接受到的总输入值与神经元的阈值进行比较后,通过激活函数处理产生神经元的输出。激活函数理想的激活函数是阶跃函数,但是阶跃函数步连续,不光滑。实际使用Sigmoid函数。将一个神经网络视为包含了许多参数的数学模型,这个模型有若干个函数。例如yi=f(∑iwixi−θj)y_i = f(\sum_iw_ix_i-\theta_j)y
2021-07-25 19:02:29 508 3
原创 Day03-《西瓜书》-决策树(DataWhale)
四、决策树(decision tree)4.1 基本流程决策树是通过一系列规则对数据进行分类的过程。决策树表示给定特征条件下类的条件概率分布决策树组成:内部结点(internal node):表示一个特征或属性叶结点(leaf node):一个类别或某个值决策树生成步骤:特征选择决策树生成决策树的修剪4.2 决策树算法4.2.1 基础知识信息熵自信息:I(X)=−logbp(x)I(X) = -log_bp(x)I(X)=−logbp(x)熵的理论解释
2021-07-22 20:03:35 355 2
转载 Day02-《西瓜书》-线性模型(DataWhale)
三、线性模型**出处:**Datawhale吃瓜教程(https://www.bilibili.com/video/BV1Mh411e7VU)具有很好的可解释性(comprehensibility)机器学习三要素:模型:根据具体问题,确定假设空间策略:根据评估标准,确定选取最优模型的策略(通常会产生一个“损失函数”)算法:求解损失函数,确定最优模型3.1 基本形式给定d个属性描述的示例$ \mathbf{x}=(x_1,x_2,…,x_d)$线性模型:f(x)=ω1x1+ω2x2+.
2021-07-19 21:27:28 100
原创 Day01-《西瓜书》-模型评估与选择(DataWhale)
一、绪论出处:Datawhale吃瓜教程(https://www.bilibili.com/video/BV1Mh411e7VU)案例:水果摊旁,挑个根蒂蜷缩,敲起来声音浊响的青绿西瓜。期待是皮薄后瓤甜的瓜1.1 引言机器学习研究如何通过计算的手段,利用经验来改善系统自身的性能。经验以数据形式存在学习算法在计算机上从数据中产生模型的算法模型泛指从数据中学到的结果机器学习分类根据训练数据是否拥有标记信息监督学习(supervised learning):分类
2021-07-13 11:52:05 194 1
原创 Day5-Python自动化办公-爬虫入门与综合应用(DataWhale)
爬虫入门与综合应用1. requests简介pip install requestsre.status_code:响应的HTTP状态码re.text:响应内容的字符串形式re.content:响应内容的二进制形式re.encoding:响应内容的编码,常用的编码方式:ASCII、GBK、UTF-8、UTF-8-SIGre.headers:网址的headers所有信息re.cookies:cookies信息,cookie可以用于模拟登录,做会话维持re.urlre.history:请求的
2021-06-25 11:10:36 387 1
原创 Day4-Python自动化办公-Python与PDF(DataWhale)
Python操作PDF初级操作批量拆分批量合并提取文字内容提取表格内容提取图片内容转换为PDF图片添加水印加密和机密1. 相关介绍PyPDF2库更好地读取、写入、分割、合并PDF。主要是处理PDF文件pdfplumber库更好的读取PDF文件中的内容和PDF文件中的表格主要是处理PDF文件中的内容PyMuPDF库提取图片按装PyMuPDF库,但是import fitzpdf2image库将PDF转换为图片1.1 P
2021-06-23 00:17:25 265 1
原创 Day3-Python自动化办公-Python与Word(DataWhale)
Python自动化之word操作安装库pip3 install python-docx基础知识word文档的页面结构Document:文档Paragraph:段落Run:文字块python-docx将整个文章看作一个Document对象,基本结构为每个Document包含许多个代表“段落”的Paragraph对象,存放在document.paragraphs中每个Paragraph都有许多个代表"行内元素"的Run对象,存放在paragraph.runs中run是
2021-06-20 19:31:07 406 8
原创 Day2-Python自动化办公-Python与Excel(DataWhale)
Python自动化之Excel问题解决:使用jupyter lab导入openpyxl模块提示模块不存在,但是在库列表中查询是存在的,解决方案:直接在notebook中输入pip install openpyxl之后再import openpyxl即可概念:row:行,数字表示column:列,字母表示cell:单元格sheet:表1. Excel读取1.1 读取表格openpyxl库:load_workbook() 打开Excelsheet.dimensions 内容所在的单元
2021-06-18 19:12:38 222
原创 Day1-Python自动化办公-文件自动化处理(DataWhale)
1. 文件自动化处理1.1 读写文件1.1.1 文件与文件路径路径指明文件在计算机上的位置文件名指该位置的文件的名称os.path.join()函数创建文件名称字符串import osos.path.join('Datawhale', 'docu')> 'Datawhale\\docu' #其中一个斜杠是转义1.1.2 当前工作目录os.getcwd() 获取当前工作路径os.chdir() 改变当前工作目录1.1.3 路径操作绝对路径总是从根文件夹开始
2021-06-16 22:13:06 693 3
原创 Day15-集成学习-机器学习-案例二:蒸汽量预测(DataWhale)
案例二、蒸汽量预测1. 基础信息数据信息:训练数据(train.txt)测试数据(test.txt)特征变量字段:V0-V37目标变量字段:target目的:利用训练数据训练出模型,预测测试数据的目标变量评价指标均方误差MSEScore=1n∑1n(yi−y∗)2Score = \frac{1}{n} \sum_1^n(y_i-y^*)^2Score=n11∑n(yi−y∗)22. 加载数据import numpy as npimport pandas as pd
2021-05-23 21:16:10 377 3
原创 Day14-集成学习-机器学习-案例一:幸福感预测(DataWhale)
案例一:幸福感预测需要使用包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等)、家庭变量(父母、配偶、子女、家庭资本)、社会态度(公平、信用、公共服务)等139个维度来预测其对幸福感的影响。1. 基本信息数据信息维度:139个数据集:8000组预测值:(1,2,3,4,5)。1最低,5最高评价指标使用均方误差MSE,即Score=1n∑1n(yi−y∗)2Score = \frac{1}{n}\sum_1^n(y_i - y^*)^2Score=n11∑n(yi−y
2021-05-18 21:24:41 1187 1
原创 Day13-集成学习-机器学习-Stacking(DataWhale)
一、Stacking集成算法1.1 原理下面,我们来实际应用下Stacking是如何集成算法的:(参考案例:https://www.cnblogs.com/Christina-Notebook/p/10063146.html)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wXgWEbRV-1620887337278)(./5.png)]首先将数据分为训练集和测试集。再将训练集分为5份:train1,……,train5选定基模型。并在训练集上对每个模型进行5折交叉验
2021-05-13 14:30:14 266
原创 Day12-集成学习-机器学习-Blending(DataWhale)
一、Blending算法1.1 原理(1) 将数据划分为训练集和测试集(test_set),其中训练集再划分为训练集(train_set)和验证集(val_set) (2) 创建第一层的多个模型,模型可以是同质的也可以是异质的(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict和test_predict1 (4) 创建第二层的模型,使用val_predict作为训练集训练第二层的模型 (5) 使用第二层训练好的模型
2021-05-11 23:04:38 175
原创 Day11-集成学习-机器学习-XGBoost算法(DataWhale)
一、XGBoost算法1.1 原理XGBoost的本质是GBDT,但是在速度和效率上发挥极致,XGBoost是一个优化的分布式梯度增强库,在GradientBoosting框架下实现机器学习算法XGBoost提供并行树提升(GBDT,GBM),可以快速准确地解决数据科学问题XGBoost以CART决策树为子模型,通过Gradient Tree Boosting实现多颗CART树的集成学习,得到最终模型。模型构建:数据为:D={(xi,yi)}(∣D∣=n,xi∈Rm,yi∈R)D=\{(x_
2021-04-26 23:01:24 308 1
原创 Day10-集成学习-机器学习-梯度提升决策树GBDT(DataWhale)
一、前向分步算法1.1 加法模型在Adaboost模型中,将每个基本分类器合成一个复杂分类器的方法是每个基本分类器的加权和f(x)=∑m=1Mβmb(x;γm)f(x) = \sum_{m=1}^{M}\beta_mb(x;\gamma_m)f(x)=∑m=1Mβmb(x;γm),b(x;γm)b(x;\gamma_m)b(x;γm)为基本分类器,γm\gamma_mγm是基本分类器的参数,βm\beta_mβm是基本分类器的权重给定训练数据以及损失函数L(y,f(x))L(y,f(x))
2021-04-23 18:16:24 318
原创 Day09-集成学习-机器学习-Adaboost算法(DataWhale)
三、Boosting方法Boosting方法是使用同一组数据集进行反复的学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的学习模型。Boosting方法是通过不断减小偏差的形式,而Bagging是通过降低方差的方法。大部分Boosting方法是通过改变训练数据集的概率分布(训练数据不同样本的权值),针对不同概率分布的数据调用弱分算法学习一系列的弱分类器Boosting解决两个问题:(1)每一轮学习如何改变数据的概率分布;(2)如何将各个弱分类器组合起来。3.1 Adaboos
2021-04-19 21:21:46 195
原创 Day08-集成学习-机器学习-Bagging(DataWhale)
二、BaggingBagging不仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型服从一定的假设。通过不同的采样增加模型的差异性2.1 原理核心:自助采样bootstrap,有放回的从数据集中进行采样。基于每个样本训练一个基学习器,再将所有的基学习器结合回归问题预测:通过预测取平均值分类问题预测:通过预测取多数票预测Bagging是一种降低方差的技术,在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显实际应用中,加入列采样的Bagging技术对高维小样本更显著
2021-04-14 14:27:38 204
原创 Day07-集成学习-机器学习-投票法(DataWhale)
一、投票法1.1 介绍原理遵循少数服从多数原则,通过多个模型的集成降低方差。理想情况,投票法的预测效果优于任何一个基模型的预测结果分类回归投票法:预测结果是所有模型预测结果的平均值分类投票法:预测结果是所有模型中出现最多的预测结果硬投票:所有投票结果出现最多的类软投票:所有投票结果中概率和平均最大的类原则想要投票法产生较好的结果,需要满足:基模型之间的效果不能差别很大。当某个模型相对于其他基模型效果差时,该模型可能是噪声基模型之间应该有较小的同质性。例如在基模型预测效果近
2021-04-12 13:28:28 1975
转载 Day06-集成学习-机器学习-评估模型的性能并调参(DataWhale)
三、评估模型的性能并调参模型评估、调参的流程:用管道简化工作流使用k折交叉验证评估模型性能使用学习和验证曲线调试算法通过网格搜索进行超参数调优比较不同的性能评估指标**出处:**https://zhuanlan.zhihu.com/p/1400407051. 用管道简化工作流对数据进行标准化,PCA降维,最后拟合模型和预测import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#读取数据data
2021-03-29 22:19:02 308
原创 Day05-集成学习-机器学习-分类模型(DataWhale)
二、sklearn构建分类项目2.1 收集数据集并选择合适的特征使用IRIS鸢尾花数据集from sklearn import datasetsimport pandas as pdiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X, columns=feature)data['target'] = ydata.head(2)
2021-03-28 01:59:50 316 1
原创 Day04-集成学习-机器学习-回归-调参(DataWhale)
5. 对模型超参数进行调优(调参)岭回归J(w)=∑i=1N(yi−w0−∑j=1pwjxij)2+λ∑j=1pwj2(λ≥0)w^=(XTX+λI)−1XTYJ(w) = \sum_{i=1}^{N}(y_i-w_0-\sum_{j=1}^{p}w_jx_{ij})^2+\lambda \sum_{j=1}^{p}w^2_j (\lambda \ge 0) \\\hat{w} = (X^TX+\lambda I)^{-1}X^TYJ(w)=i=1∑N(yi−w0−j=1∑pwjxij
2021-03-24 17:05:15 373
原创 Day03-集成学习-机器学习-回归-优化基础模型(DataWhale)
4. 优化基础模型训练数据集:去估计模型参数的数据集测试数据集:未出现在训练数据集的未知数据集估计参数原则:使得损失函数在训练集达到最小值回归模型的目的:使得模型在测试数据中表现优异解决估计参数的原则与模型最优的矛盾4.1 均方误差MSE=1N∑i=1N(yi−f^(xi))2\text{MSE} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{f}(x_i))^2MSE=N1i=1∑N(yi−f^(xi))2f^(xi)\hat{f}(x_i
2021-03-22 22:29:19 290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人