自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 西方经济学——微观经济学

微观经济学相关知识笔记

2025-05-04 18:40:45 792

原创 SQL代码书写的顺序

sql语句顺序

2025-05-03 19:01:06 150

原创 SQL笔记——左连接、右连接、内连接

SQL中常见的连接方式,左连接、右连接、笛卡尔积

2025-05-03 18:53:03 539

原创 产品入门篇笔记

简单而言就是想清楚怎么做的人,需要想清楚产品怎么设计,要分析什么用户、在什么场景、怎么样的需求;数据产品经理:专注于设计书籍中相关数据产品的解决方案,研究数据价值。G端产品经理:面向政府部门、公共设施类产品(政府网站、公安系统)B端产品经理:面向公司内部或者外部(oa、saas)商业产品经理:对收入利润负责,营收场景设计、广告变现。C端产品经理:面向普通用户(微信、抖音)策略产品经理:推荐策略、用户增长策略。产品经理:对自己产品的需求负责。高级产品经理:对某条产品线负责。功能产品经理:功能设计。

2024-09-01 17:46:47 427

原创 机器学习——RNN、LSTM

此外Bi-LSTM,是双向的,相当于运用了两层LSTM但是方向不同,前面是单向的,信息从左到右的的传递相当于考虑前面的信息,Bi-LSTM是左右信息都考虑,然后拼接结果。最左边是的黄色矩形部分是遗忘门,就是结合前一层的的h1+输入x2拼接,然后经过全连接层后输出ft,就是把之前的一些信息遗忘一部分,特点:输入层是层层相关联的,输入包括上一个隐藏层的输出h1和外界输入x2,然后融合一个张量,通过全连接得到h2,重复。解决了RNN的缺点,在长序列中效果好,现在仔细研究中间图的结构。

2024-06-20 18:35:49 579 1

原创 NLP基础知识——文本处理、张量表示、文本数据分析

CBOW步骤就是:如果i love nice day like ,假设窗口大小为3,则是i love nice 三个词,然后 i 和nice 作为输入,采用one-hot编码,(1,0,0,0,0)和(0,1,0,0,0)然后预测 love,以此内推,love nice day用love和day预测nice。1.n-gram特征:就是特征中假如到相邻的特征 而我和喜欢相邻假设是89 加到里面 喜欢和工作相邻假设是5 加入其中【2,43,56,89,5】我(1,0,0,0)和(0,1,0,0)

2024-06-20 01:32:45 1178

原创 机器学习笔记——无监督学习下的k均值聚类

贝叶斯公式何贝叶斯网络模型的简单运用。只使用条件独立的假设何计数方法,统计变量的先验分布,再有贝叶斯反推参数的后验分布。同时假设每个样本类别y何特征变量x相互独立。原理:首先随机选择k何点作为中心,然后计算每一个点到中心的聚类,然后计算到每个中心的距离,选择到中心最短距离的那个中心所在的类进行归类,然后更新中心点,一直重复。由依赖关系构成的有向图,称为贝叶斯网络。主要是实现降为,选择重要的成分。变量和变量之间的关联是双向的。

2024-06-18 19:53:07 305

原创 SQL笔记——表的操作、数据修改、列的属性和查询操作

SQL中创建表、修改、属性、查询等语句

2024-06-17 21:36:56 1070 1

原创 数据库基础——数字、字符串、日期时间、二进制

char 和varchar用的比较多,文本的text用的多,还有longtext、enum等等。tinyblob二进制短文本、blob普通文本、mediumblob中文本等等。int用的比较多 还有tinyint、smallint、bigint。注释可以用 --内容 表示或者/* 内容*/数据库不区分大小写,一条语句的结尾以英文分号结尾。datetime表示年月日+time的。定义:主要是数据表的创建、删除、修改。用来存储图像、文本、程序的数据。time是表示时分秒的时间。bit表示节,最常用。

2024-06-17 19:54:33 267

原创 机器学习——集成学习和梯度提升决策树

自举是指的是自举采样,保证随机性,允许重复的又放回抽样,每次抽与原样本大小相同的样本出来,如果进行B次。则有B个数据集,然后独立的训练出模型。GBDT算法中应用广泛的是XGBoost,其在损失函数中添加与决策树复杂度相关的正则化约束,防止单个弱学习发生过拟合现象。不同的算法都可以对解决同一个问题,但是可能准确率不同,集成学习就是不同算法按照某种组合来解决问题,使得准确率提升。提升算法是另一种集成学习的框架,思路是利用当前模型的偏差来调整训练数据的权重。bagging算法的改进版就是随机森林。

2024-06-12 22:52:19 763

原创 机器学习——决策树

一层一层连接的是交内部节点,内部节点主要是一些条件判断表达式,叶子叫叶节点,叶节点其实就是最终的预测结果,那么当输入x进去,一层一层的进行选择,就到最后的叶子节点,就完成整个流程,叶子节点的值就是最终的值。在回归问题中,采用CART算法,其采用了误差的平方作为标准。在构造决策树的时候需要尽可能的减少模型的复杂度,可见决策树的层数和节点数不要过多才最好。ID3算法是基于信息增益来做的,C4.5是结合信息增益率来做的,只能解决分类问题。决策树可以理解为是一颗倒立的树,叶子在下端,根在最上面。

2024-06-12 00:34:19 822 3

原创 机器学习笔记——支持向量机

思想:同时优化所有的参数比较困难,因此选择部分参数来优化,选择两个固定其他的,然后再选两个固定其他的一直循环,直到更新参数的变化小于某个值就可以终止,或者固定迭代次数。我们只需要用支持向量来进行分类,这样子减少了复杂度和时间消耗,但是优势不明显,因为参数a的求解需要的时间也很大,所以用到了序列最小优化算法来解决这个问题。对于一个样本,要么对应的参数a为0,要么与超平面的间隔为γ,将这些与超平面距离最小的向量。这里的a是待求解的参数,梯度参数量是和规模m相关,数据的规模增大时,参数量也增多。

2024-06-10 19:37:47 790

原创 机器学习笔记——循环神经网络

更新单元就是来选择应该倾向于旧的信息还是新的输入x,接近1则保留旧的信息忽略新输入信息,接近0就是选择让新信息和旧信息混合,可以用来选择控制旧信息和新信息直接的比例。重置单元可以选择的遗忘,就是将有些维度等于0,消除了过去的信息,用来选择旧信息的保留比例。而卷积神经网络CNN可以提取不太尺度的关联信息,有助于图像特征提取。是最为基础的,可以模拟线性变换,复杂度低,训练简单,适用范围广。循环神经网络可能出现梯度消失或者梯度爆炸,解决方法之一就是。循环神经网络适合数据序列大,有一定前后关联的数据特征。

2024-06-09 23:55:40 650 1

原创 机器学习——卷积神经网络

多层感知机MLP的层数足够,理论上可以用其提取出二位特征,但是毕竟复杂,卷积神经网络就可以更合适的来提取高维的特征。如果将f进行翻转,得到的参数在位置上是翻转的,对参数数值没有影响。这样的运算称为互相关。是每个像素点对应的权重,权重越大,重要程度越大,这里的权重。在CNN中进行卷积运算的层称为。而卷积其实是一种运算。是一个图像的像素点,

2024-06-09 19:34:30 675

原创 机器学习——多层感知机

在这里偏置就像线性模型的常数项,加入偏置模型的表达能力增强,而激活函数就像示性函数,可以模拟神经元的兴奋和抑制,当大于等于0就输出1。非线性对提升模型的表达能力很重要,其实因为非线性变换相当于提升了数据的维度,维度提升的好处就在于低维数据不可分的问题可以在高维中可分。一般让所有的隐含层的激活函数相同,输出层的激活函数需根据任务的需求选择,二分类可以选择逻辑斯蒂回归,多分类用softmax函数。可以证明任意一个R上的连续函数都可以由MLP来拟合,而对其非线性的激活函数的形式要求很少,也称作。

2024-06-03 23:32:23 573

原创 机器学习笔记——双线性回归 MF、 FM

双线性回归的MF、 MF模型

2024-06-02 01:05:04 545

原创 机器学习模型以及优缺点——logistic

核心:通过sigmoid函数或者softmax函数将线性模型拟合值映射到分类概率上,并通过最大似然或者最小化交叉熵函数来获得最优系数。1.不能用Logistic回归去解决非线性问题,因为Logistic的决策面试线性的。2.较好的可解释性,参数的正负、绝对值大小代表了对应特征对于预测类别的重要性。4.逻辑回归本身无法筛选特征,有时会用gbdt来筛选特征,然后再上逻辑回归。1.模型简单,训练速度较快,分类的时候,计算量仅仅只和特征的数目相关。3.极好的可并行性,优化目标相对参数的凸函数有全局最优解。

2024-06-01 19:18:10 467

原创 数据清洗——重复、异常、缺失

(2)填充:常用方法包括使用特定值(如平均值、中位数、众数、常数)填充,使用模型预测(如线性回归、决策树、KNN等)填充,以及使用插补法(如前向填充、后向填充、线性插补、多重插补等)填充。(3)标记:对于无法确定是否为异常值,或者异常值具有潜在研究价值的情况,可以将其标记为异常,供后续分析时参考。(3)保留:对于缺失值本身具有含义(如问卷调查中的“不愿透露”选项),或者缺失比例极高、难以有效填充的情况,可以选择保留缺失值,并在后续分析中予以特殊处理。但需注意,删除可能导致数据丢失、样本偏斜等问题。

2024-06-01 19:06:06 543

原创 机器学习笔记——逻辑斯蒂回归

真阳性率 、假阳性率 FPR的变化曲线就叫做。在多分类使用softmax函数。ROC曲线的面积就叫AUC。

2024-06-01 00:19:29 402

原创 机器学习笔记——欠拟合、过拟合

欠拟合就是模型过度拟合到观测数据中不具有普遍的部分,以至于在对未观测的数据标签进行预测时出现较大的偏差,可能出现在模型的复杂度大于数据的复杂度。1.一般出现在模型的复杂度小于数据本身的复杂度导致的,这个可能就是模型对数据的分布和实际数据分布之间的差异,这个就可能需要更换模型。其实我们在监督学习中,标签y和变量x直接的关系就是所谓的模式记作f(x),机器学习的任务就是给出数据,找到这种模式。过拟合的本质是由于模型的参数过于复杂,所以需要引入某种限制,防止过拟合的方向发展,这样的约束称为正则化。

2024-05-31 00:21:41 370

原创 数据分析——分群思维、RFM实现用户分群

然后根据把R、 F、 M分组,可以根据R的不同中位数分组,如1/4 2/4 3/4 来分成4组,同理其他也一样,每一组进行打分,这里R分组打分应该是逆向的,因为R越大其实越不好,所以分值应该越小,但是F 和M就是正向的,越大分应该越高,这样子来进行数据转换了其实,然后通过总分值来分组用户类型是哪一种。在横向就是分析今天(假如是5月20日)注册的用户接下来的七天变化情况,一天后留存了多少,2天后又是多少(可以这样子理解:同一个个体随时间变化情况)但是不知道每一个类的含义,可以进行回归到没有归一化的数据。

2024-05-29 19:38:37 647

原创 机器学习笔记——线性回归、梯度下降

梯度也就是寻找函数增加变化最快的方向,反方向就是减小最多的方向,如果损失函数按照梯度的反方向调整,很快就可以减小了。(SGD),这样子也快也不复杂,但是可能不稳定,因为单个样本计算出来的可能与所有的不一致,再加上如果不是凸函数,可能下降梯度就发生偏移了,所以可以选择多个点来下降,可以使用。什么是线性回归就不说了,直接说线性回归的目标就是首先需要一个损失函数,使得损失函数最小化来训练得出的模型,最常用的损失函数是均方误差。其实还可以分析不同学习率下的结果,来调整合适的学习率,一般情况下学习率越大速度越快。

2024-05-29 17:44:02 288

原创 机器学习笔记——K近邻算法、手写数字识别

也就是说有一个待分类的样本,然后跟他周围的k个样本来看,k中哪一个类最多,待分类的样本就是哪一个。其大概原理就是一个样本归到哪一类,当前样本需要归到频次最高的哪个类去。“物以类聚,人以群分”相似的数据往往拥有相同的类别。那就以手写数字识别为例吧。

2024-05-27 18:05:33 676

原创 一天了解一个机器学习模型——机器学习基础知识

包括对输入目标的模式识别、标签分类、回归、预测未来数据、聚类需要机器产生行动,改变状态,如下围棋、自动驾驶搜索——结合算法探索分支的好坏,从而做出决策,如下棋推理——基于给定的知识归纳出规律完成证明、知识问答学习——通过经验数据对目标优化的自动化过程,如人脸识别博弈——多个人工智能体的交互,如足球配合可以这样子说“

2024-05-25 19:46:14 422

原创 数据分析——对比思维、A/B test

A/B测试

2024-05-14 22:37:21 402

原创 数据分析思维——数据标签

数据分析思维的学习之数据标签以及作用

2024-05-13 23:15:26 326

原创 数据分析思维——数据指标体系、异动分析

异动分析

2024-05-13 12:45:53 587

原创 数据分析思维——数据埋点笔记,以电商为例

数据埋点笔记、电商成交数据埋点例子

2024-05-12 12:17:55 768

原创 stata空间计量模型基础+检验命令LM检验、sem、门槛+arcgis画图

stata命令 arcgis画图 核密度 lm检验 门槛模型 中介效应 泰尔指数 莫兰指数

2024-05-11 22:25:45 8538

原创 tableau基础学习——仪表板、 地图

画地图仪表板首先新建一个仪表板再将画好的工作表(条形图、饼图等)拖动到仪表板中就可组合多个表了(平铺情况下)在浮动的情况下拖到的表就是浮动的

2024-04-26 16:55:11 338

原创 tableau基础学习——添加标靶图、甘特图、瀑布图

tableau的甘特图 瀑布图 标靶图

2024-04-24 17:40:16 398

原创 MYSQL学习——存储引擎

mysql 引擎特点

2024-04-24 15:44:04 353

原创 Tableau基础学习——基本表 凸显表

tableau 自学画图 词云图 凸显表

2024-04-22 17:55:52 343

原创 部分线性非参数的模拟基于NW估计和局部多项式估计

部分线性模型 非参数模拟 NW估计、局部多项式估计

2023-12-31 17:41:53 576 1

原创 非参数模型采用GCV选择带宽的核估计核局部多项式估计

非参数的核估计和局部多项式估计,基于GCV选择带宽

2023-12-31 17:33:48 1161 2

原创 统计中MCMC和马氏链,MH

MCMC和MH算法

2022-12-24 15:47:23 332

原创 统计计算——随机模拟

R中随机模拟

2022-12-23 17:21:04 268

原创 Bootstrap方法

统计计算——非参数和参数Bootstrap方法、置信区间

2022-12-22 16:29:30 672

原创 逆变换法生成离散、连续随机数

逆变换法、舍选法生成随机数

2022-12-22 01:34:42 1507

原创 蒙特卡洛算法、随机投点、平均值法、求积分

蒙特卡洛求解pai、积分、方差缩减思想

2022-12-21 23:27:49 2122

机器学习-决策树 算法的的图片

机器学习-决策树 算法的的图片

2024-06-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除