- 博客(57)
- 收藏
- 关注
原创 产品入门篇笔记
简单而言就是想清楚怎么做的人,需要想清楚产品怎么设计,要分析什么用户、在什么场景、怎么样的需求;数据产品经理:专注于设计书籍中相关数据产品的解决方案,研究数据价值。G端产品经理:面向政府部门、公共设施类产品(政府网站、公安系统)B端产品经理:面向公司内部或者外部(oa、saas)商业产品经理:对收入利润负责,营收场景设计、广告变现。C端产品经理:面向普通用户(微信、抖音)策略产品经理:推荐策略、用户增长策略。产品经理:对自己产品的需求负责。高级产品经理:对某条产品线负责。功能产品经理:功能设计。
2024-09-01 17:46:47
427
原创 机器学习——RNN、LSTM
此外Bi-LSTM,是双向的,相当于运用了两层LSTM但是方向不同,前面是单向的,信息从左到右的的传递相当于考虑前面的信息,Bi-LSTM是左右信息都考虑,然后拼接结果。最左边是的黄色矩形部分是遗忘门,就是结合前一层的的h1+输入x2拼接,然后经过全连接层后输出ft,就是把之前的一些信息遗忘一部分,特点:输入层是层层相关联的,输入包括上一个隐藏层的输出h1和外界输入x2,然后融合一个张量,通过全连接得到h2,重复。解决了RNN的缺点,在长序列中效果好,现在仔细研究中间图的结构。
2024-06-20 18:35:49
579
1
原创 NLP基础知识——文本处理、张量表示、文本数据分析
CBOW步骤就是:如果i love nice day like ,假设窗口大小为3,则是i love nice 三个词,然后 i 和nice 作为输入,采用one-hot编码,(1,0,0,0,0)和(0,1,0,0,0)然后预测 love,以此内推,love nice day用love和day预测nice。1.n-gram特征:就是特征中假如到相邻的特征 而我和喜欢相邻假设是89 加到里面 喜欢和工作相邻假设是5 加入其中【2,43,56,89,5】我(1,0,0,0)和(0,1,0,0)
2024-06-20 01:32:45
1178
原创 机器学习笔记——无监督学习下的k均值聚类
贝叶斯公式何贝叶斯网络模型的简单运用。只使用条件独立的假设何计数方法,统计变量的先验分布,再有贝叶斯反推参数的后验分布。同时假设每个样本类别y何特征变量x相互独立。原理:首先随机选择k何点作为中心,然后计算每一个点到中心的聚类,然后计算到每个中心的距离,选择到中心最短距离的那个中心所在的类进行归类,然后更新中心点,一直重复。由依赖关系构成的有向图,称为贝叶斯网络。主要是实现降为,选择重要的成分。变量和变量之间的关联是双向的。
2024-06-18 19:53:07
305
原创 数据库基础——数字、字符串、日期时间、二进制
char 和varchar用的比较多,文本的text用的多,还有longtext、enum等等。tinyblob二进制短文本、blob普通文本、mediumblob中文本等等。int用的比较多 还有tinyint、smallint、bigint。注释可以用 --内容 表示或者/* 内容*/数据库不区分大小写,一条语句的结尾以英文分号结尾。datetime表示年月日+time的。定义:主要是数据表的创建、删除、修改。用来存储图像、文本、程序的数据。time是表示时分秒的时间。bit表示节,最常用。
2024-06-17 19:54:33
267
原创 机器学习——集成学习和梯度提升决策树
自举是指的是自举采样,保证随机性,允许重复的又放回抽样,每次抽与原样本大小相同的样本出来,如果进行B次。则有B个数据集,然后独立的训练出模型。GBDT算法中应用广泛的是XGBoost,其在损失函数中添加与决策树复杂度相关的正则化约束,防止单个弱学习发生过拟合现象。不同的算法都可以对解决同一个问题,但是可能准确率不同,集成学习就是不同算法按照某种组合来解决问题,使得准确率提升。提升算法是另一种集成学习的框架,思路是利用当前模型的偏差来调整训练数据的权重。bagging算法的改进版就是随机森林。
2024-06-12 22:52:19
763
原创 机器学习——决策树
一层一层连接的是交内部节点,内部节点主要是一些条件判断表达式,叶子叫叶节点,叶节点其实就是最终的预测结果,那么当输入x进去,一层一层的进行选择,就到最后的叶子节点,就完成整个流程,叶子节点的值就是最终的值。在回归问题中,采用CART算法,其采用了误差的平方作为标准。在构造决策树的时候需要尽可能的减少模型的复杂度,可见决策树的层数和节点数不要过多才最好。ID3算法是基于信息增益来做的,C4.5是结合信息增益率来做的,只能解决分类问题。决策树可以理解为是一颗倒立的树,叶子在下端,根在最上面。
2024-06-12 00:34:19
822
3
原创 机器学习笔记——支持向量机
思想:同时优化所有的参数比较困难,因此选择部分参数来优化,选择两个固定其他的,然后再选两个固定其他的一直循环,直到更新参数的变化小于某个值就可以终止,或者固定迭代次数。我们只需要用支持向量来进行分类,这样子减少了复杂度和时间消耗,但是优势不明显,因为参数a的求解需要的时间也很大,所以用到了序列最小优化算法来解决这个问题。对于一个样本,要么对应的参数a为0,要么与超平面的间隔为γ,将这些与超平面距离最小的向量。这里的a是待求解的参数,梯度参数量是和规模m相关,数据的规模增大时,参数量也增多。
2024-06-10 19:37:47
790
原创 机器学习笔记——循环神经网络
更新单元就是来选择应该倾向于旧的信息还是新的输入x,接近1则保留旧的信息忽略新输入信息,接近0就是选择让新信息和旧信息混合,可以用来选择控制旧信息和新信息直接的比例。重置单元可以选择的遗忘,就是将有些维度等于0,消除了过去的信息,用来选择旧信息的保留比例。而卷积神经网络CNN可以提取不太尺度的关联信息,有助于图像特征提取。是最为基础的,可以模拟线性变换,复杂度低,训练简单,适用范围广。循环神经网络可能出现梯度消失或者梯度爆炸,解决方法之一就是。循环神经网络适合数据序列大,有一定前后关联的数据特征。
2024-06-09 23:55:40
650
1
原创 机器学习——卷积神经网络
多层感知机MLP的层数足够,理论上可以用其提取出二位特征,但是毕竟复杂,卷积神经网络就可以更合适的来提取高维的特征。如果将f进行翻转,得到的参数在位置上是翻转的,对参数数值没有影响。这样的运算称为互相关。是每个像素点对应的权重,权重越大,重要程度越大,这里的权重。在CNN中进行卷积运算的层称为。而卷积其实是一种运算。是一个图像的像素点,
2024-06-09 19:34:30
675
原创 机器学习——多层感知机
在这里偏置就像线性模型的常数项,加入偏置模型的表达能力增强,而激活函数就像示性函数,可以模拟神经元的兴奋和抑制,当大于等于0就输出1。非线性对提升模型的表达能力很重要,其实因为非线性变换相当于提升了数据的维度,维度提升的好处就在于低维数据不可分的问题可以在高维中可分。一般让所有的隐含层的激活函数相同,输出层的激活函数需根据任务的需求选择,二分类可以选择逻辑斯蒂回归,多分类用softmax函数。可以证明任意一个R上的连续函数都可以由MLP来拟合,而对其非线性的激活函数的形式要求很少,也称作。
2024-06-03 23:32:23
573
原创 机器学习模型以及优缺点——logistic
核心:通过sigmoid函数或者softmax函数将线性模型拟合值映射到分类概率上,并通过最大似然或者最小化交叉熵函数来获得最优系数。1.不能用Logistic回归去解决非线性问题,因为Logistic的决策面试线性的。2.较好的可解释性,参数的正负、绝对值大小代表了对应特征对于预测类别的重要性。4.逻辑回归本身无法筛选特征,有时会用gbdt来筛选特征,然后再上逻辑回归。1.模型简单,训练速度较快,分类的时候,计算量仅仅只和特征的数目相关。3.极好的可并行性,优化目标相对参数的凸函数有全局最优解。
2024-06-01 19:18:10
467
原创 数据清洗——重复、异常、缺失
(2)填充:常用方法包括使用特定值(如平均值、中位数、众数、常数)填充,使用模型预测(如线性回归、决策树、KNN等)填充,以及使用插补法(如前向填充、后向填充、线性插补、多重插补等)填充。(3)标记:对于无法确定是否为异常值,或者异常值具有潜在研究价值的情况,可以将其标记为异常,供后续分析时参考。(3)保留:对于缺失值本身具有含义(如问卷调查中的“不愿透露”选项),或者缺失比例极高、难以有效填充的情况,可以选择保留缺失值,并在后续分析中予以特殊处理。但需注意,删除可能导致数据丢失、样本偏斜等问题。
2024-06-01 19:06:06
543
原创 机器学习笔记——欠拟合、过拟合
欠拟合就是模型过度拟合到观测数据中不具有普遍的部分,以至于在对未观测的数据标签进行预测时出现较大的偏差,可能出现在模型的复杂度大于数据的复杂度。1.一般出现在模型的复杂度小于数据本身的复杂度导致的,这个可能就是模型对数据的分布和实际数据分布之间的差异,这个就可能需要更换模型。其实我们在监督学习中,标签y和变量x直接的关系就是所谓的模式记作f(x),机器学习的任务就是给出数据,找到这种模式。过拟合的本质是由于模型的参数过于复杂,所以需要引入某种限制,防止过拟合的方向发展,这样的约束称为正则化。
2024-05-31 00:21:41
370
原创 数据分析——分群思维、RFM实现用户分群
然后根据把R、 F、 M分组,可以根据R的不同中位数分组,如1/4 2/4 3/4 来分成4组,同理其他也一样,每一组进行打分,这里R分组打分应该是逆向的,因为R越大其实越不好,所以分值应该越小,但是F 和M就是正向的,越大分应该越高,这样子来进行数据转换了其实,然后通过总分值来分组用户类型是哪一种。在横向就是分析今天(假如是5月20日)注册的用户接下来的七天变化情况,一天后留存了多少,2天后又是多少(可以这样子理解:同一个个体随时间变化情况)但是不知道每一个类的含义,可以进行回归到没有归一化的数据。
2024-05-29 19:38:37
647
原创 机器学习笔记——线性回归、梯度下降
梯度也就是寻找函数增加变化最快的方向,反方向就是减小最多的方向,如果损失函数按照梯度的反方向调整,很快就可以减小了。(SGD),这样子也快也不复杂,但是可能不稳定,因为单个样本计算出来的可能与所有的不一致,再加上如果不是凸函数,可能下降梯度就发生偏移了,所以可以选择多个点来下降,可以使用。什么是线性回归就不说了,直接说线性回归的目标就是首先需要一个损失函数,使得损失函数最小化来训练得出的模型,最常用的损失函数是均方误差。其实还可以分析不同学习率下的结果,来调整合适的学习率,一般情况下学习率越大速度越快。
2024-05-29 17:44:02
288
原创 机器学习笔记——K近邻算法、手写数字识别
也就是说有一个待分类的样本,然后跟他周围的k个样本来看,k中哪一个类最多,待分类的样本就是哪一个。其大概原理就是一个样本归到哪一类,当前样本需要归到频次最高的哪个类去。“物以类聚,人以群分”相似的数据往往拥有相同的类别。那就以手写数字识别为例吧。
2024-05-27 18:05:33
676
原创 一天了解一个机器学习模型——机器学习基础知识
包括对输入目标的模式识别、标签分类、回归、预测未来数据、聚类需要机器产生行动,改变状态,如下围棋、自动驾驶搜索——结合算法探索分支的好坏,从而做出决策,如下棋推理——基于给定的知识归纳出规律完成证明、知识问答学习——通过经验数据对目标优化的自动化过程,如人脸识别博弈——多个人工智能体的交互,如足球配合可以这样子说“
2024-05-25 19:46:14
422
原创 stata空间计量模型基础+检验命令LM检验、sem、门槛+arcgis画图
stata命令 arcgis画图 核密度 lm检验 门槛模型 中介效应 泰尔指数 莫兰指数
2024-05-11 22:25:45
8538
原创 tableau基础学习——仪表板、 地图
画地图仪表板首先新建一个仪表板再将画好的工作表(条形图、饼图等)拖动到仪表板中就可组合多个表了(平铺情况下)在浮动的情况下拖到的表就是浮动的
2024-04-26 16:55:11
338
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人