star_and_sun-CSDN博客

原创 SQL笔记——左连接、右连接、内连接

SQL中常见的连接方式，左连接、右连接、笛卡尔积

2025-05-03 18:53:03 539

简单而言就是想清楚怎么做的人，需要想清楚产品怎么设计，要分析什么用户、在什么场景、怎么样的需求；数据产品经理：专注于设计书籍中相关数据产品的解决方案，研究数据价值。G端产品经理:面向政府部门、公共设施类产品（政府网站、公安系统）B端产品经理：面向公司内部或者外部（oa、saas）商业产品经理：对收入利润负责，营收场景设计、广告变现。C端产品经理:面向普通用户（微信、抖音）策略产品经理：推荐策略、用户增长策略。产品经理：对自己产品的需求负责。高级产品经理：对某条产品线负责。功能产品经理：功能设计。

2024-09-01 17:46:47 427

原创机器学习——RNN、LSTM

此外Bi-LSTM，是双向的，相当于运用了两层LSTM但是方向不同，前面是单向的，信息从左到右的的传递相当于考虑前面的信息，Bi-LSTM是左右信息都考虑，然后拼接结果。最左边是的黄色矩形部分是遗忘门，就是结合前一层的的h1+输入x2拼接，然后经过全连接层后输出ft，就是把之前的一些信息遗忘一部分，特点：输入层是层层相关联的，输入包括上一个隐藏层的输出h1和外界输入x2，然后融合一个张量，通过全连接得到h2，重复。解决了RNN的缺点，在长序列中效果好，现在仔细研究中间图的结构。

2024-06-20 18:35:49 579 1

原创 NLP基础知识——文本处理、张量表示、文本数据分析

CBOW步骤就是：如果i love nice day like ，假设窗口大小为3，则是i love nice 三个词，然后 i 和nice 作为输入，采用one-hot编码，（1，0，0，0，0）和（0，1，0，0，0）然后预测 love，以此内推，love nice day用love和day预测nice。1.n-gram特征：就是特征中假如到相邻的特征而我和喜欢相邻假设是89 加到里面喜欢和工作相邻假设是5 加入其中【2，43，56，89，5】我（1，0，0，0）和（0，1，0，0）

2024-06-20 01:32:45 1178

原创机器学习笔记——无监督学习下的k均值聚类

贝叶斯公式何贝叶斯网络模型的简单运用。只使用条件独立的假设何计数方法，统计变量的先验分布，再有贝叶斯反推参数的后验分布。同时假设每个样本类别y何特征变量x相互独立。原理：首先随机选择k何点作为中心，然后计算每一个点到中心的聚类，然后计算到每个中心的距离，选择到中心最短距离的那个中心所在的类进行归类，然后更新中心点，一直重复。由依赖关系构成的有向图，称为贝叶斯网络。主要是实现降为，选择重要的成分。变量和变量之间的关联是双向的。

2024-06-18 19:53:07 305

原创 SQL笔记——表的操作、数据修改、列的属性和查询操作

SQL中创建表、修改、属性、查询等语句

2024-06-17 21:36:56 1070 1

原创数据库基础——数字、字符串、日期时间、二进制

char 和varchar用的比较多，文本的text用的多，还有longtext、enum等等。tinyblob二进制短文本、blob普通文本、mediumblob中文本等等。int用的比较多还有tinyint、smallint、bigint。注释可以用 --内容表示或者/* 内容*/数据库不区分大小写，一条语句的结尾以英文分号结尾。datetime表示年月日+time的。定义：主要是数据表的创建、删除、修改。用来存储图像、文本、程序的数据。time是表示时分秒的时间。bit表示节，最常用。

2024-06-17 19:54:33 267

原创机器学习——集成学习和梯度提升决策树

自举是指的是自举采样，保证随机性，允许重复的又放回抽样，每次抽与原样本大小相同的样本出来，如果进行B次。则有B个数据集，然后独立的训练出模型。GBDT算法中应用广泛的是XGBoost，其在损失函数中添加与决策树复杂度相关的正则化约束，防止单个弱学习发生过拟合现象。不同的算法都可以对解决同一个问题，但是可能准确率不同，集成学习就是不同算法按照某种组合来解决问题，使得准确率提升。提升算法是另一种集成学习的框架，思路是利用当前模型的偏差来调整训练数据的权重。bagging算法的改进版就是随机森林。

2024-06-12 22:52:19 763

原创机器学习——决策树

一层一层连接的是交内部节点，内部节点主要是一些条件判断表达式，叶子叫叶节点，叶节点其实就是最终的预测结果，那么当输入x进去，一层一层的进行选择，就到最后的叶子节点，就完成整个流程，叶子节点的值就是最终的值。在回归问题中，采用CART算法，其采用了误差的平方作为标准。在构造决策树的时候需要尽可能的减少模型的复杂度，可见决策树的层数和节点数不要过多才最好。ID3算法是基于信息增益来做的，C4.5是结合信息增益率来做的，只能解决分类问题。决策树可以理解为是一颗倒立的树，叶子在下端，根在最上面。

2024-06-12 00:34:19 822 3

原创机器学习笔记——支持向量机

思想：同时优化所有的参数比较困难，因此选择部分参数来优化，选择两个固定其他的，然后再选两个固定其他的一直循环，直到更新参数的变化小于某个值就可以终止，或者固定迭代次数。我们只需要用支持向量来进行分类，这样子减少了复杂度和时间消耗，但是优势不明显，因为参数a的求解需要的时间也很大，所以用到了序列最小优化算法来解决这个问题。对于一个样本，要么对应的参数a为0，要么与超平面的间隔为γ，将这些与超平面距离最小的向量。这里的a是待求解的参数，梯度参数量是和规模m相关，数据的规模增大时，参数量也增多。

2024-06-10 19:37:47 790

原创机器学习笔记——循环神经网络

更新单元就是来选择应该倾向于旧的信息还是新的输入x，接近1则保留旧的信息忽略新输入信息，接近0就是选择让新信息和旧信息混合，可以用来选择控制旧信息和新信息直接的比例。重置单元可以选择的遗忘，就是将有些维度等于0，消除了过去的信息，用来选择旧信息的保留比例。而卷积神经网络CNN可以提取不太尺度的关联信息，有助于图像特征提取。是最为基础的，可以模拟线性变换，复杂度低，训练简单，适用范围广。循环神经网络可能出现梯度消失或者梯度爆炸，解决方法之一就是。循环神经网络适合数据序列大，有一定前后关联的数据特征。

2024-06-09 23:55:40 650 1

原创机器学习——卷积神经网络

多层感知机MLP的层数足够，理论上可以用其提取出二位特征，但是毕竟复杂，卷积神经网络就可以更合适的来提取高维的特征。如果将f进行翻转，得到的参数在位置上是翻转的，对参数数值没有影响。这样的运算称为互相关。是每个像素点对应的权重，权重越大，重要程度越大，这里的权重。在CNN中进行卷积运算的层称为。而卷积其实是一种运算。是一个图像的像素点，

2024-06-09 19:34:30 675

原创机器学习——多层感知机

在这里偏置就像线性模型的常数项，加入偏置模型的表达能力增强，而激活函数就像示性函数，可以模拟神经元的兴奋和抑制，当大于等于0就输出1。非线性对提升模型的表达能力很重要，其实因为非线性变换相当于提升了数据的维度，维度提升的好处就在于低维数据不可分的问题可以在高维中可分。一般让所有的隐含层的激活函数相同，输出层的激活函数需根据任务的需求选择，二分类可以选择逻辑斯蒂回归，多分类用softmax函数。可以证明任意一个R上的连续函数都可以由MLP来拟合，而对其非线性的激活函数的形式要求很少，也称作。

2024-06-03 23:32:23 573

原创机器学习笔记——双线性回归 MF、 FM

双线性回归的MF、 MF模型

2024-06-02 01:05:04 545

原创机器学习模型以及优缺点——logistic

核心：通过sigmoid函数或者softmax函数将线性模型拟合值映射到分类概率上，并通过最大似然或者最小化交叉熵函数来获得最优系数。1.不能用Logistic回归去解决非线性问题，因为Logistic的决策面试线性的。2.较好的可解释性，参数的正负、绝对值大小代表了对应特征对于预测类别的重要性。4.逻辑回归本身无法筛选特征，有时会用gbdt来筛选特征，然后再上逻辑回归。1.模型简单，训练速度较快，分类的时候，计算量仅仅只和特征的数目相关。3.极好的可并行性，优化目标相对参数的凸函数有全局最优解。

2024-06-01 19:18:10 467

原创数据清洗——重复、异常、缺失

（2）填充：常用方法包括使用特定值（如平均值、中位数、众数、常数）填充，使用模型预测（如线性回归、决策树、KNN等）填充，以及使用插补法（如前向填充、后向填充、线性插补、多重插补等）填充。（3）标记：对于无法确定是否为异常值，或者异常值具有潜在研究价值的情况，可以将其标记为异常，供后续分析时参考。（3）保留：对于缺失值本身具有含义（如问卷调查中的“不愿透露”选项），或者缺失比例极高、难以有效填充的情况，可以选择保留缺失值，并在后续分析中予以特殊处理。但需注意，删除可能导致数据丢失、样本偏斜等问题。

2024-06-01 19:06:06 543

原创机器学习笔记——逻辑斯蒂回归

真阳性率、假阳性率 FPR的变化曲线就叫做。在多分类使用softmax函数。ROC曲线的面积就叫AUC。

2024-06-01 00:19:29 402

原创机器学习笔记——欠拟合、过拟合

欠拟合就是模型过度拟合到观测数据中不具有普遍的部分，以至于在对未观测的数据标签进行预测时出现较大的偏差，可能出现在模型的复杂度大于数据的复杂度。1.一般出现在模型的复杂度小于数据本身的复杂度导致的，这个可能就是模型对数据的分布和实际数据分布之间的差异，这个就可能需要更换模型。其实我们在监督学习中，标签y和变量x直接的关系就是所谓的模式记作f（x），机器学习的任务就是给出数据，找到这种模式。过拟合的本质是由于模型的参数过于复杂，所以需要引入某种限制，防止过拟合的方向发展，这样的约束称为正则化。

2024-05-31 00:21:41 370

原创数据分析——分群思维、RFM实现用户分群

然后根据把R、 F、 M分组，可以根据R的不同中位数分组，如1/4 2/4 3/4 来分成4组，同理其他也一样，每一组进行打分，这里R分组打分应该是逆向的，因为R越大其实越不好，所以分值应该越小，但是F 和M就是正向的，越大分应该越高，这样子来进行数据转换了其实，然后通过总分值来分组用户类型是哪一种。在横向就是分析今天（假如是5月20日）注册的用户接下来的七天变化情况，一天后留存了多少，2天后又是多少（可以这样子理解：同一个个体随时间变化情况）但是不知道每一个类的含义，可以进行回归到没有归一化的数据。

2024-05-29 19:38:37 647

原创机器学习笔记——线性回归、梯度下降

梯度也就是寻找函数增加变化最快的方向，反方向就是减小最多的方向，如果损失函数按照梯度的反方向调整，很快就可以减小了。（SGD），这样子也快也不复杂，但是可能不稳定，因为单个样本计算出来的可能与所有的不一致，再加上如果不是凸函数，可能下降梯度就发生偏移了，所以可以选择多个点来下降，可以使用。什么是线性回归就不说了，直接说线性回归的目标就是首先需要一个损失函数，使得损失函数最小化来训练得出的模型，最常用的损失函数是均方误差。其实还可以分析不同学习率下的结果，来调整合适的学习率，一般情况下学习率越大速度越快。

2024-05-29 17:44:02 288

原创机器学习笔记——K近邻算法、手写数字识别

也就是说有一个待分类的样本，然后跟他周围的k个样本来看，k中哪一个类最多，待分类的样本就是哪一个。其大概原理就是一个样本归到哪一类，当前样本需要归到频次最高的哪个类去。“物以类聚，人以群分”相似的数据往往拥有相同的类别。那就以手写数字识别为例吧。

2024-05-27 18:05:33 676

原创一天了解一个机器学习模型——机器学习基础知识

包括对输入目标的模式识别、标签分类、回归、预测未来数据、聚类需要机器产生行动，改变状态，如下围棋、自动驾驶搜索——结合算法探索分支的好坏，从而做出决策，如下棋推理——基于给定的知识归纳出规律完成证明、知识问答学习——通过经验数据对目标优化的自动化过程，如人脸识别博弈——多个人工智能体的交互，如足球配合可以这样子说“

2024-05-25 19:46:14 422