![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 78
celine0227
这个作者很懒,什么都没留下…
展开
-
机器学习实现文本分类
word embedding文本分布式表示方法则是深度学习方法的重要基础文本的分布式表示(Distributed Representation)的基本思想是将每个词表示为n维稠密,连续的实数向量。分布式表示的最大优点在于它具有非常强大的表征能力,比如n维向量每维k个值,可以表征k的n次方个概念。事实上,不管是神经网络的影层,还是多个潜在变量的概率主题模型,都是在应用分布式表示。下图的神经网络语言模型(NNLM)采用的就是文本分布式表示。原创 2024-04-11 10:15:40 · 1462 阅读 · 1 评论 -
探讨计量经济学与机器学习
一、计量经济学与机器学习的联系和区别:共通之处在于二者所使用的“原材料”和任务的形式的高度相似性。简单来说,两类方法的最终输入都是结构化数据。你有一个因变量,有一堆自变量,有好多的个案。最后的目的都是对自变量进行一通操作来去“近似”这个因变量。区别在于使用两类方法的根本目的是不一样的。使用计量经济学方法目的是进行结构分析,也就是说我们最后是想知道哪些自变量会对因变量产生影响,影响有多大;只关注变量的系数和显著性。与之不同,使用机器学习方法的目的就是用一大堆自变量去预测因变量。更关注预测的准确度。原创 2022-04-27 21:23:08 · 3778 阅读 · 0 评论 -
Lasso模型
Lasso是一种数据降维方法,该方法不仅适用于线性情况,也适用于非线性情况。Lasso是基于惩罚方法对样本数据进行变量选择,通过对原本的系数进行压缩,将原本很小的系数直接压缩至0,从而将这部分系数所对应的变量视为非显著性变量,将不显著的变量直接舍弃。了解Lasso之前我们需要了解的知识1.1 高维数据何谓高维数据?高维数据指数据的维度很高,甚至远大于样本量的个数。高维数据的明显的表现是:在空间中数据是非常稀疏的,与空间的维数相比样本量总是显得非常少。在分析高维数据过程中碰到最大的问题就是维数的膨胀,原创 2022-04-27 20:37:36 · 10172 阅读 · 0 评论 -
LSTM介绍
1. 传统神经网络结构的缺陷从传统的神经网络结构我们可以看出,信号流从输入层到输出层依次流过,同一层级的神经元之间,信号是不会相互传递的。这样就会导致一个问题,输出信号只与输入信号有关,而与输入信号的先后顺序无关。并且神经元本身也不具有存储信息的能力,整个网络也就没有“记忆”能力,当输入信号是一个跟时间相关的信号时,如果我们想要通过这段信号的“上下文”信息来理解一段时间序列的意思,传统的神经网络结构就显得无力了。与我们人类的理解过程类似,我们听到一句话时往往需要通过这句话中词语出现的顺序以及我们之前所学转载 2021-09-07 15:49:51 · 5347 阅读 · 0 评论 -
Dataframe常用问题
一、Dataframe修改某一列的列名df.rename(columns={'Year_orig':'year','Quarter_orig':'quarter'},inplace=True)inplace=True修改了原数据grouped = df_state_unemployment.groupby(['year','state'])grouped['Points'].sum()二、通过pandas删除行、列(drop):删除行drop方法中,默认是删除行。如果用ax原创 2021-08-25 19:35:40 · 164 阅读 · 0 评论 -
Pandas常规问题汇总
一、Series1. 创建series(1) 列表创建n [1]: import pandas as pdIn [2]: list_a = [2,4,5,6]In [3]: pd.Series(list_a)Out[3]:0 21 42 53 6dtype: int64(2) 字典创建In [5]: pd.Series({'a':1,'b':3})Out[5]:a 1b 3dtype: int64#如果定义的index原创 2021-08-23 20:26:18 · 734 阅读 · 0 评论