小果一粒沙-CSDN博客

原创文本生成评估指标简单介绍BLEU+ROUGE+Perplexity+Meteor 代码实现

（或其他自然语言处理任务）的质量，即：衡量目标文本与生成文本之间的匹配程度，此外还考虑生成文本的召回率，BLEU则相对更看重生成文本的准确率，着重于涵盖参考摘要的内容和信息的完整性。分别有四种方法：ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S。

2023-11-05 22:31:52 1783

原创 pandas使用groupby分组统计求出每组内出现频数最大的值（离散变量连续变量）

pandas聚合的特征计算

2022-12-08 15:44:00 1189 1

原创 tensorflow自定义激活函数（带有条件判断）

tensorflow自定义激活函数，带有条件判断。

2022-12-01 16:41:05 1024

原创安装wtte出现问题 wtte1.1.1 require six~=1.10.0, but you have six 1.15.0 which is incompatible

问题如图所示.只需要新建立一个conda环境，安装python=3.6, tensorflow环境为1.8就可以啦。步骤：conda建立新环境conda创建新环境conda 安装tensorflow=1.8在anaconda环境下安装旧版本TensorFlow1.8出现问题：FutureWarning: Passing (type, 1) or ‘1type’ as a synonym of type is deprecated; in a future version...

2022-03-12 19:31:18 1294

原创简单理解python中的nonlocal和global关键字

Defnonlocal: 在一个子函数中声明当前变量不是局部变量，也就是说，可以在当前子函数中使用其父函数定义的变量，并且可以作修改。且在子函数中修改之后在父函数中的变量也会变成修改之后的变量。eg:x = 1def func(): nonlocal x x = 2 return xprint(func())print(x)得到结果22global: 在一个子函数中定义的变量是全局变量，可以在当前子函数的外面使用这个定义的global变量。def func(): globa

2021-12-12 11:35:08 612

原创 Task 05(RNN循环神经网络

1、有向图，主要是引入了复合函数链式求导的知识，分别引入了单变量的链式求导和多变量的链式求导。引入这个，主要是为了后面神经网络后向传播时，更新参数使用的为什么引入为什么要引入RNN？因为之前介绍多层感知机、CNN都只能够处理结构化的数据，在某个时刻的数据，输入到一个模型中去，我们能够利用这些数据对因变量的状态进行预测（分类和回归），但是现实生活中往往存在跟时间相关的、且长短不一（非固定长度）数据，所以我们引入了RNN循环神经网络来处理序列类型的数据。通过循环神经网络，不仅能够利用当前的数据进行预测，

2021-12-01 23:51:29 198

原创 Task 04(CNN卷积神经网络

1、卷积2、CNN基本原理3、经典CNN4、CNN主要应用参考：感觉课程讲述的很清楚，在记录基本笔记的情况下，记录一下从网上其它地方写的介绍。力求笔记尽可能简单移动，且简洁。关于为什么要从全连接网络转到CNN这种权值共享的网络，主要有以下几点：全连接网络，参数多，CNN网络的权值共享策略能够减少参数的数量其次，全连接网络，不能够识别一些边缘信息，CNN网络能够通过对原始图片数据取padding来检测到原始数据的边缘信息。卷积神经网络，可以通过核卷积操作进行尺度缩放，平移，旋转等操作，不影

2021-11-27 23:54:03 670

原创解决网站某些图片因为http无法显示的问题

参考：Chrome 禁止混合内容的解决办法搜索不安全内容在允许下添加站点OK，作业部落网站显示正常eg. 零基础入门深度学习(4) - 卷积神经网络

2021-11-26 17:05:31 2134

原创 Task 03(前馈神经网络

神经元模型神经元(M-P)参考：McCulloch-Pitts Neuron — Mankind’s First Mathematical Model Of A Biological Neuron | by Akshay L Chandra | Towards Data Science多个输入，进行线性组合(w⋅xw \cdot xw⋅x)，加上一个偏置(−b-b−b)，得到一个数w⋅x+bw \cdot x + bw⋅x+b，通过激活函数fff，到达下一个神经元。大致是这样的结构。抽象到

2021-11-23 23:26:28 677

原创第一次实习中学习到的（python，数据处理，Spark，Hadoop，Linux，time related

实习学习到的：正则表达式匹配中文hdoop fs -testshell中echo命令详解

2021-11-23 17:35:21 4575

原创 Task02 机器学习基础

文章目录参考机器学习基本概念：误差分析有监督学习线性回归广义线性模型逻辑回归支持向量机决策树集成学习无监督学习聚类降维参考常见机器学习分类_梦沁清风-CSDN博客_机器学习分类机器学习算法分类 - 秋雨秋雨秋雨 - 博客园 (cnblogs.com)机器学习分类 - 狂狷 - 博客园 (cnblogs.com)机器学习主要学习了一些机器学习的基础知识，教程很简单，这次笔记主要是按照教程的框架进行了一些本统计学上的拓展。其中主要学习到了：切分数据集的原因、作用。机器学习的误差来源，以及补充

2021-11-20 22:15:18 4462

原创水很深的深度学习（深度学习发展+深度学习数学基础

人工智能介绍许多科学家对人工智能的定义简言之，人工智能，就是让计算机从数据中学习知识，理解知识，并且像人一样，能够利用这些知识去做些事情，比如搞预测，搞分析，搞回答等等，都是要求可以检验的。学习到这些数据并且会用这些数据进行灵活运用，这些计算机被叫做人工智能。人工只能的三大类（根据智能的程度来分）弱人工智能、强人工智能、超级人工智能人工智能在历史发展长河中也被分为三个阶段：理论推导（人工智能的诞生，1956-1980），但是计算机实现不了，这时的人工智能，其实可以理解成人类引导的一个阶段，计算机

2021-11-17 23:46:43 5075

原创 Task 08（树模型组队总结

这次的团队学习，我学习到了什么？理论上的从基础模型树模型到集成模型Bagging, Boosting和stacking以及blending，学起来感觉特别地舒服。从信息论到树的生成，从信息熵到gini指数，从只能进行分类的ID3, C4.5到既能分类又能回归的CART, 树的预剪枝和后剪枝，系统地学习了及模型的由来，过程，以及各个模型的特点。从为什么要集成到如何集成，学习到了集成学习带来的好处，集成学习的每一步更新步骤，学习到了所谓的切入点。再详细了解了RandomForest, AdaBoost,

2021-11-08 23:03:42 87

原创 Task 06（XGBoost, LightGBM

Task 08侧边栏练习【练习7】请写出L(m)(Fi(m))L^{(m)}(F_i^{(m)})L(m)(Fi(m))在Fi(m)=Fi(m−1)F_i^{(m)} = F_i^{(m-1)}Fi(m)=Fi(m−1)处的二阶展开。L(m)(Fi(m))=γT+12λ∑j=1Twj2+∑i=1N[∂L∂hi∣hi=0hi+∂2L∂hi2∣hi=0hi2]+constant=γT+12λ∑j=1Twj2+∑i=1N[∂L∂Fi(m−1)∣Fi(m)=Fi(m−1)(Fi(m)−Fi(m−1))+

2021-11-07 23:51:07 125

原创 Task 06 梯度提升树（上

【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/index.html【内容概要】Part D第一节和第二节【打卡内容】侧边栏练习，知识回顾，实现gbdt的分类树和回归树简单总结1、学习了GBDT回归参数优化问题的不同自处，将原本对一个参数的拟合，变成对数据树模型的拟合，模型的输出结果为我们原本想要的参数结果。2、了解GBDT回归在损失函数下的更新的不同，不再局限于原来的均方损失；学习参数w的更新方式，以及模型更新的方

2021-11-04 00:12:03 113

原创 Task 05 AdaBoost(自适应提升方法

【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/index.html【内容概要】掌握adaboost用于分类和回归的流程原理，第4节选学【打卡内容】侧边栏练习，知识回顾，算法2和算法4的代码实现学习到的内容1、重点了解了AdaBoost的由来，以及关于样本权重以及基学习器权重的更新策略。2、在进行分类时，因变量的设置、损失函数的设置以及为什么要这么设置损失函数，知道这么做为什么是合理的；了解训练的流程以及决策的判断，

2021-10-30 23:10:16 185

原创 Task 04 随机森林和孤立森林0-23

【内容概要】理解随机森林的训练和预测流程，特征重要性和oob得分计算，孤立森林的原理以及训练和预测流程【打卡内容】侧边栏练习，知识回顾后三题，实现孤立森林算法和用于分类的随机森林算法（可以用sklearn的决策树或task2中自己实现的分类cart树）什么是随机森林的oob得分？oob得分是指对模型训练效果的评价，利用抽取得到的样本进行训练，对oob样本进行预测，得到的预测效果好坏的评价。随机森林是如何集成多个决策树模型的？将多个模型训练的结果进行集成。其中，当目标是进行分类时，使用投票法

2021-10-24 00:14:24 1871

原创 task 03 集成模式

Task01开始啦：决策树(上)，截止时间：10月21日03:00-------【资料链接】https://datawhalechina.github.io/machine-learning-toy-code/01_tree_ensemble/02_ensemble.html#part-b主要学习知识点：【练习1】左式第四个等号为何成立？当cov(ED[f^D]−f^D,ϵ)=0cov(\mathbb{E}_{D}[\hat{f}_D] - \hat{f}_D, \epsilon) = 0

2021-10-20 23:25:48 141

原创 Task 02 决策树（下）CART分类代码实现(参考datawhale

主要是改写CART回归代码两点：分裂节点的标准，从MSE变成了gini选择输出节点的特征，由原来的取平均变成求最大值先写一下大致的代码逻辑吧总的来说定义节点分类方式定义一个树如何生成一棵树肯定是要进行节点的分裂判断一个节点分裂还是不分裂 -> 定义分裂的条件可以分裂之后，怎么办 -> 需要分裂的方式（即如何进行节点的分裂）如何进行节点的分裂 -> 定义分裂的准则找到哪个特征进行分裂 -> 利用信息准则进行判断，找到最优的特征和相应的最优切分.

2021-10-17 21:46:49 458

原创 Task 01：决策树（上）打卡（学习内容简单总结+课后题自解

Task1：学习链接：Part A: 决策树 — Datawhale (datawhalechina.github.io)学习到的知识：从信息论中引入信息熵，此作为判断节点不纯度，通过分裂来降低子节点的平均不纯度。熟悉了信息熵的理论定义、性质（关于n增大，极值等）；信息增益的定义。这层了解比之前仅仅了解三个公式（信息增益、信息增益比、GINI指数好多了）。从sklearn对ID3, C4.5，CART的实现中了解他们之间的区别。例如对连续变量的处理、缺失值的处理，以及找分割点的方式（最佳分割、随

2021-10-14 20:53:40 167

原创推荐系统中召回步骤（粗糙

讲一下召回的大致流程，粗糙的，以后慢慢细化1，获取数据需要用到的数据：原始数据，有五个场景，全场景、home, hot, rel, chooseECPM数据，可能是需要计算imei, APP_id数据mapping数据，一个index，一个是appidembedding数据，一个index, 一个是软件的编码，与mapping是相对应的2，处理数据，进行筛选主要筛选有以下几步：重复变量空数据曝光数目比较小，需要删去流量的筛选，这会对之后某个模块的调参有影响。一个对照组，一.

2021-09-02 18:55:26 280

原创 Linux常用命令 + 一丢Hadoop（命令行、代码中

最近艰难地、不得不学习了一些关于linux的命令，下面把我常见的写下来。Vim切换文件目录cd: change directorycd /D/Works/Lagua/your_target_file_pathcd .. # 切换上级目录cd Lagua # 切换到当前目录下的Lagua文件上下左右： H, J, K, L ：左下上右跳转到指定行：ngg/nG:nvim +n filename, 加号不能省略复制粘贴：终端复制：Ctrl + Shift + cCtr.

2021-07-25 15:06:44 129

原创数据挖掘--数据探索与数据预处理

文章目录数据探索与数据预处理数据理解清除变量分类型自变量处理时间变量异常值极值数据分箱缺失数据降维过抽样与欠抽样参考黑体字为预处理相关的模型，即在使用这些模型时，需要关注到这些预处理数据探索与数据预处理数据理解抽样偏差数据粒度个人认为，数据粒度可以用于分箱数据的精确含义变量类型：名义变量、类别变量、属性变量定序变量定距变量定比变量冗余变量变量重复（多个变量之间的取值相同）某一个变量/多个变量可以由其它变量推出会造成多重共线性：线性回归，SVM，朴素贝叶斯（要求在

2021-06-19 15:59:34 1531

原创 R语言--数据挖掘7--预测性建模：线性回归

文章目录预测性建模之线性回归模型假设模型理论结果模型诊断变量选择：案例分析数据描述查看数据基本特征及其分布模型拟合：模型检验：检验残差异常值的检验：自相关性检验：多重共线性的检验：总结参考代码本次报告的主要目的是结合回归分析的理论来对实际mlr数据进行分析，并且分析得到的结果。本次报告的主要内容：介绍原理，介绍回归分析的原理。案例分析，结合mlr.csv中的数据，使用回归模型来拟合。总结，总结回归的效果。参考代码预测性建模之线性回归模型假设随机误差零均值、同方差、正态性，且各个

2021-05-10 15:01:08 6324

原创 R语言--数据挖掘6--探索性分类建模分析

探索性分类建模分析本报告的主要内容：对报告使用的iris数据和wine数据做介绍。简要介绍基本判别分析、朴素贝叶斯和k近邻的原理。结合原理进行建模分析。对本次报告的总结。代码以及参考。数据介绍本次报告主要使用两个数据：鸢尾花iris数据和酒wine的数据。鸢尾花iris数据：主要有5个字段变量，150个观测数据。其中前4个变量分别是Speal.Length, Sepal.Width, Petal.Length, Petal.Width，它们是我们主要用这4个变量来进行分析，最后一个

2021-05-10 14:43:34 688

原创数据结构--简单理解平衡搜索树的旋转

主要是开始感觉这个旋转太不像我们平时理解的关于一个点的旋转了。第一次看也很模糊，到第二次看，发现其实就是保持大小的一个旋转。首先讲一点点关于二叉搜索树的定义：每个节点p存储一个键值对(k, v)的二叉树T，使得：存储在p的左子树的键都小于k存储在p的右子树的键都大于k其实旋转就是在以上基础上形成的。我们知道一个键的左子树一定会小于k，也就是说，键k大于左子树的键。利用这两者的等价性，就可以开始构造我们的旋转。比如说x是y的左子树，即x的键小于y，那么我们就可以进行旋转，保持等价关系，将y作.

2021-04-21 16:02:05 202

原创 python编程---不调包实现后向传播算法

原理介绍写上了，待我补充上来，绝对不长，这里注重编码实现，所只介绍关键数据！！！载入数据在utils.py文件中"""生成数据"""import numpy as npimport pandas as pddef load_data(n=1000): np.random.seed(0) X = np.random.randn(n) * 10 Z = np.tan(X) # X: input, Z: target ouput return X, Z

2021-04-16 16:53:34 316 1

原创 R语言--数据挖掘5---探索性聚类分析

探索性聚类分析本次实验报告的内容为：介绍数据。首先介绍数据的状况，数据大体代表的意思。数据分为两个部分，一个是R语言自带的鸢尾花的数据；以及航空公司客户信息的数据air_data.csv介绍原理。主要介绍两种聚类分析的方法，k-means聚类和层次聚类法。案例分析。根据原来来对数据进行实际分析，对得到结果给出合理性的解释。本次的案例分析分为两个部分，一部分是对iris数据的分析；另一部分是航空公司客户信息进行聚类分析；总结。对当前做的事情做一个总结，自我评价一下不足。参

2021-04-15 23:05:31 2722

原创 R语言--数据挖掘4---探索性数据降维分析

探索性数据降维分析本报告主要包含以下内容：数据介绍基本原理介绍结合案例数据进行分析最后总结附上代码和参考数据介绍本报告所使用的是洛杉矶街区数据，其中包含每个街区的名字、收入中位数、公立学校API中位数、种族多样性、年龄中位数、有房家庭占比等14项字段，共有110个观测数据。本报告的主要目的是对这个数据的字段（变量）进行分析，并且探索性地尝试使用主成分分析和因子分析等降维方法来对数据进行降维分析。基本原理介绍主成分分析主成分分析是一种降维方法，通过原始数据一系列的线性变换找到对数

2021-04-15 22:50:30 1018

原创 R语言--数据挖掘3---关联规则分析

文章目录关联规则分析数据介绍基本原理介绍基本概念：Apriori算法有意义的关联规则案例分析总结反思学习其他同学的代码参考代码这其实跟前面排序是等价的查看分析结果inspect函数逐条查看关联规则by="lift"指定按提升值降序排列。----------5 关联分析结果可视化对关联规则的支持度、置信度和提升值进行可视化关联规则分析本次报告主要包括以下内容：数据介绍基本原理介绍结合理论进行案例分析最后总结附录加上参考和代码数据介绍本次报告所使用的案例数据为购物篮数据，存储在shop

2021-04-15 22:43:02 5126 1

原创 R语言--数据挖掘2--数据理解与准备

数据理解与准备数据理解主要是理解数据，包括分析抽样偏差，数据粒度，数据得精确含义，变量类型，冗余变量，完整性，缺省值，数据链接。这里主要先查看数据，处理冗余变量，进行缺失值的分析等。获取并查看数据：首先读取bankloan.csv文件中的数据为数据框bankLoan，并且使用R语言中的summary(bankLoan)初步查看数据的位置分布特征。library(dplyr)library(purrr)library(xlsx)setwd("D:/lagua/CODING/R-learn/R

2021-04-15 21:53:50 2681

原创 R语言--数据挖掘1---缺失值的识别与处理

文章目录缺失值的识别与处理查看原始数据分析缺失值的模式及机制缺失数据模式缺失数据机制分析当前数据处理缺失值插补值的评价总的代码参考第一次作业缺失值的识别与处理总的思路：查看数据，进行分析-> 有缺失值，则我们分析为什么有缺失值->分析缺失值的类型->如何处理这个缺失值，有哪些方法，如何选取这些方法->对插补之后的缺失值进行评价，即看插补的好不好查看原始数据有3个变量（列），21个观测值(行）如上表所示，用户的用电数据存在有缺失值。于是我们先考虑使用R

2021-04-14 08:23:17 4510

原创 python数据结构--一个先序遍历缩进输出文档目录表的例子

参考：《数据结构与算法–python语言实现》P221，代码段8-24看了半天没看懂，最后课本上一个例子还有一个需要用到它，没办法，一步步拆解了。def preorder_label(self, T, p, d, path): """ 是这样的：假设这棵树只有一个根节点，两个子节点，一个左一个右孩子初始执行preorder(T, self.root(), 0, []) 我先分析一下path 开始根节点为[] 接着运行一下函数[0] 再开始sel

2021-04-08 15:29:57 144

原创日照-公积金贷款逾期预测-比赛总结

前言主要是过去一年做事情没有一个系统化的概念，今年就想就此改变一下。先从写笔记开始，将我这学期学习到的东西，参加的比赛，写出来，算是过路有痕。比赛大部分应该不是我自己一个人参加的，分工合作嘛，那我就把自己做的写出来，详细点；了解了一点东西，写下来，以后就可以更加深入学习了。同学做的，写出来，简略一下，不过我也尝试了解一下他们的思想，下次去实现一下。不一次性写完，尽量想写得详细一些。写完的就画勾勾，没写完就继续写，反正养成记录的习惯。（我的碎碎念我写的代码后面也跟着整理出来（就算是辣鸡我也要整理出来！

2021-03-03 17:18:12 614 5

原创 SARIMA季节项时间序列分析流程+python代码

数据数据网站：National Aeronautics and Space AdministrationGoddard Institute for Space Studies主要分析的是北美陆地表面温度。训练数据：1990.1-2019.12.开只选取了120即10的数据来进行分析，但是到最后发现模型有很多的波动之后，去问老师，老师说这是数据太少导致波动太大造成的，所以建议我们再多训练一些数据。就之后进行模型的定阶而言，至少需要三四百的数据。最后我们选取了360个数据，即30年的数据。关于模型

2021-01-06 21:50:07 22705 29

原创变换后的ARMA新息递归预报--python索引踩坑记

有时候按照课本来打公式，很多次都会出现程序的索引跟课本上的索引不一致的情况，这次，我在这个地方陷了两天，气死我了！但是还好，问题终于解决，不是我的问题，是课本的问题。不过还是想把这个思考的过程记录下来，希望以后能够在索引上面少花一些时间。介绍python常见的索引方式自带列表：索引是从0开始的，如果你有li[a:b]的形式，那么最终取出来的数是li[a], li[a+1], ..., li[b-1].还有一个非常坑的地方。li = [1, 2, 3]li_2to5 = li[2:5]print

2020-12-23 13:45:25 235

原创 Python编程--利用ENGS求最佳样本容量n--Bayes-5.18

题目：某上考虑是否向一县办厂订购一种家用电器（以下简称电器）。该厂生产的电器有一等品和二等品两个等级，一等品与二等品的数量之比有1:1和2:1两种可能，其概率分别为0.45和0.55。如果买到的是一等品，与一般市场价格相比较，每只可赚10元。如果买到二等品，每只要亏15元。假如该厂允许在一批电器中抽取若干只进行检验，根据抽样结果决定是否订购该批（900只）电器。但抽样总的费用为每只20元。这时商店必须考虑多少只最合算？求上界n∗≤先验EVPI−CfCvn^* \le \frac{\text{

2020-11-19 23:56:11 1094 2

原创概统（第七章-参数估计

主要内容Point EstimationInterval estimationconnection and differenceunbaised有效性相合性什么是参数估计？点估计和区间估计，一个是用一个数值来估计未知参数，一个是使用一个区间来估计未知参数的可能取值范围。为什么要在点估计的基础之上引入一个区间估计呢？因为我们不仅希望有一个具体的值，还希望有一个估计的区间，区间有精...

2020-08-26 18:29:25 761

原创统计学原理--总论（统计学的对象和方法）基本概念通俗理解

统计学统计学是研究客观现象的统计规律性的科学，是关于数据搜集、整理、归纳和分析的方法论科学。当然，因为统计学是一门方法论科学，你也可以将里面研究客观现象的统计规律性的方法用于去发现生活中的另类规律性。比如，当某个随机试验（我们现实生活中做某件事情）做多了，我们就可以发现其中的一些规律性，可以利用这些规律性来帮助我们更好的学习与生活；如何检验你对现实规律性的认知是否正确呢？搞一个假设检验嘛，在假设检验中对于总体分布的假设可以适当的宽松一点，也可以得到你想要的结论。统计学的性质数量性、总体性和变异性。

2020-08-23 10:47:56 3755

原创概率论与数理统计（第六章-数理统计的基本概念

主要内容StatisticsSufficient StatisticsCommon Statistics and DistributionsNormal distributiont distributionkafang DistributionF distribution统计学的基本概念，是利用样本来推断总体其中所会涉及到的一些概念。学习过概率论的基础知识之后，我们就开始对抽样进行...

2020-07-12 21:13:49 669

空空如也

空空如也