- 博客(76)
- 资源 (1)
- 收藏
- 关注
原创 photoshop实用技巧
ps中有的时候需要添加不同的形状,但是很多情况下无法修改形状的颜色,多数情况下是因为,在添加形状时候选择的时候,左上角选择了路径,而不是形状,只要选择形状就可以实现图形和边框的颜色的调整。...
2022-04-21 19:19:58 1023
原创 五种常用的计量工具
1、背景计量就是使用数据回答因果问题,计量经济学的工具就是有条理的数据分析,同时辅之以统计推断。最常用的计量工具如下:随机实验 、回归、工具变量、断点回归和双重差分。接下来对每种计量工具进行说明。随机实验以美国平价医疗法案为例,美国评价医疗法案强制美国人购买医疗保险,并用税收惩罚那些不愿购买医疗保险的人。为了考察政府在医疗卫生市场中是否发挥了恰当作用,其中一项实验从医疗保险对健康产生的因果效应切入。现实情况是:美国人花在医疗保险上的钱比任何国家都多,但是美国人的健康状况却很糟糕。美国没有全民保
2022-04-20 19:49:55 2194
原创 R中的BP检验(Breusch-Pagan Test)
1、为什么要做BP检验(Breusch-Pagan Test)?y=α+βTx+μ+ε以一个简单的回归方程回例,回归方程中一个很重要的因素是误差项,误差项通常有两部分组成,一部分是μ表示的误差项,该项误差项在每个实验样本上的取值都是一样的,这个误差项可能是和自变量有关的;另一部分是ε 表示的异方差性误差项,在一个好的模型中,ε应该与自变量和μ都是独立的。在对回归模型选择合适的估计方法时,需要关注到的是μ异方差项的性质,分为以下几种常见情况:(1) 如果异方差项为0,也就是说模型不存在异方差性,那么最
2022-03-11 11:28:00 12917
原创 vosviewer关键词共现网络实现
我使用的是wos核心集的数据,导出格式是制表符分隔文件。具体步骤如下:点击finish确定之后,就可以出现共现网络图
2021-12-10 18:13:58 2337 3
原创 excel/vosviewer词频统计的方法
以在web of science核心集中下载的数据为例(选择制表符分隔文件导出),其中DE字段表示论文关键词。可以看到关键词之间以英文分号+空格分隔开来;使用excel的分列功能,按照指定分隔符分列;分列之后将所有列的内容,合并到第一列中,使得所有的关键词都在这一列接下来,需要对数据进行简单的处理,首先为了好看,把所有首字母都改为大写的,方法如下:在右边新建一列,用下面的公式,就可以进行首字母大写替换,然后用这一列覆盖原来的一列就好了;=REPLACE(T3,1,1,UPPER(LEFT(
2021-12-10 17:42:47 9476 1
原创 wordcloud绘制词云图的方法
词云图是话题重要程度可视化的重要方式之一,在文献计量领域是发现研究重点的最直观呈现方式。1、词频统计wordcloud绘制词云图首先需要统计每个关键词出现的次数,形成如下的词频统计表,按照词频,从高到低进行排序;2、词云图生成形状轮廓设置在ppt或者画图工具中设置自己想让词云图显示的形状,比如在这里使用的形状是椭圆,只需要在ppt中绘制一个椭圆填充颜色,保存为图片即可,后面词云图就会在有色彩范围的区域中显示。3、词云图生成具体代码这里导入1.jpg就是我们在上面创建的词云图轮廓,我们只需要在
2021-12-10 17:05:10 3100
原创 python数据处理常用方法
1、读取指定sheet和指定列的内容data = pd.read_excel("data.xlsx",sheet_name="Sheet1",usecols=["year","code1","code2","name","keywords","type",'new'])2、遍历数据,对两列数据相似度比较for i in range(0,75065): if data.loc[i]['code2']!=0: if data.loc[i]['code1'][:5]==data.l
2021-11-30 19:42:50 4199
原创 R回归分析-三种不同数据类型
横截面数据:在同一个时间节点上,收集到的不同对象的数据。时间序列数据:同一对象,在不同时间节点上收集到的数据。面板数据:在一个时间段内,收集的关于一组对象的数据
2021-10-09 16:15:16 1728
原创 关于GLMM(generalized linear mixed model)广义线性混合模型
GLMM(generalized linear mixed model)广义线性混合模型中的关键是“mixed”,“mixed”是区别于一般的GLM(generalized linear model)的显著体现。一般的GLM指的就是要求因变量符合“指数分布族”即可。关于GLM的详细解释可以在stata的help文档中看到,GLM的两个核心是 Family 和 Link。其中Family指的就是因变量的分布函数,常见的几种因变量的分布如下:连续变量——Gaussian分布/正态分布binary变量(0,
2021-10-08 17:55:05 22157 6
原创 解决fake-useragent Maximum amount of retries reached的方法
下载:https://fake-useragent.herokuapp.com/browsers/0.1.11 另存为:fake_useragent.json,将json文件保存在代码所在的文件夹下;之后在UserAgent对应的部分加入如下参数:location = os.getcwd() + ‘/fake_useragent.json’ua = fake_useragent.UserAgent(path=location).random...
2021-07-21 11:21:06 198
原创 endnote操作指南
这里写自定义目录标题软件介绍和安装导入文献直接导入pdfendnote导入再添加pdf引用文献如何通过endnote自定义文献引用格式?软件介绍和安装endnote是一个常用的文献管理软件,现在较为稳定的版本是x9版本,在安装时需要关闭所有的office软件;选择以custom的方式安装。导入文献直接导入pdf将文献pdf下载之后,直接在file下面点击import导入文献,endnote工作的原理是可以根据文章中的doi号联网到crossref去查找论文的期刊作者机构等信息,补充到这篇文章的信息
2021-04-26 22:53:49 4894
原创 解决回归过程中内生性问题的方法之一-工具变量法
OLS是常用的回归方法之一,那么OLS在使用过程中最重要的一个前提是解释变量与扰动项不相关,解释变量可以理解为我们研究时的自变量,扰动项可以理解为我们研究时与自变量独立的控制变量,如果出现解释变量与扰动项相关时,这时候为了克服内生性对研究问题的影响,我们可以在回归方程中加入工具变量解决问题。一个有效的工具变量应该满足以下两个条件:(1)相关性:工具变量应该与解释变量有关;(2)外生性:工具变量与扰动项无关;传统的工具变量法一般是称之为“两阶段最小二乘回归”;以上图为例,在一篇文章中,两个...
2021-03-24 16:52:35 13510 1
原创 stata-描述性统计分析和回归指令
前文中提到如何将xls格式的数据读入stata并且将其转换为dta格式的数据,向stata中加载数据并且转换为dta格式之后读取在读入数据之后,我们在进行回归模型构建之前,往往需要对数据进行描述性统计分析,描述性统计分析的具体方法如下,示例使用的方法是summarize,也有其他的一些方法可以参考,它们输出的描述性统计的指标类型各不相同:summarize coding tc ti_len ab_len au_num de_len if_oa py py2 if_fu nr pg country_le
2021-03-10 10:26:18 35321 2
原创 stata如何将xls/xlsx数据转换为dta数据
安装xls2dta包ssc install xls2dta,replace结果如下:checking xls2dta consistency and verifying not already installed...all files already exist and are up to date.安装完毕将xlsx文件转换为dta文件xls2dta:import excel no_miss.xlsx,first case(lower)这里的first case是指将excel
2021-03-10 09:47:26 10110 1
原创 excel中if多条件判断语句
在excel中需要使用到if函数进行条件限制,如果是多条件的情况,使用and方法如下:微软将if与and,or,not函数配合使用官方文档IF(AND(A2>0,B2<100),TRUE, FALSE)TRUE和FALSE分别代表括号内条件成立时单元格内的输入为TRUE,条件不成立时单元格内的输入为FALSE,具体值也可以自行更改。...
2021-03-10 09:11:21 3361
原创 期刊数据库
以下概念都是相关的:影响因子影响因子(英文:Impact Factor):简称IF,是汤森路透(Thomson Reuters)出品的期刊引证报告(Journal Citation Reports,JCR)中的一项数据。 即某期刊前两年发表的论文在该报告年份(JCR year)中被引用总次数除以该期刊在这两年内发表的论文总数。这是一个国际上通行的期刊评价指标。通常用的指标有IF2,IF5(2和5分别代表不同的年份时间窗口)SCI和SCIESCI(science citation index):科学引
2021-02-14 18:48:37 1383
原创 自然语言处理-5神经网络模型
文章目录前向神经网络前向传播和后向传播递归神经网络前向神经网络的局限:线性序列特点循环神经网络长短时记忆网络卷积神经网络前向神经网络前向传播和后向传播前向神经网络本质上是一个多元复合函数,由输入层、隐藏层、输出层组成,前向传播计算出输出,然后后向传播使用链式法则计算节点错误,并且优化参数,神经网络的最优参数是使得损失最小的参数。后向传播的两个重要过程:首先由前向传播计算出各个节点的激活函数输入值,然后通过后向传播计算各个节点错误。在参数估计中发挥重要作用。递归神经网络前向神经网络的局限:输
2020-12-26 14:25:43 900
原创 为excel的某一列前面批量加上指定内容
想要实现如下效果:因为不同的工作表中有相同的列名,想要区分不同年份作为主键,于是采用如下方法在excel中直接可以操作:以某一年的数据为例,想要给国家列前面加上18_的前缀,操作如下:首先,选中country列下面的除去第一行的某一列或者几列,然后按住ctrl+shift+向下按键,即可选中此列中除了第一行的所有数据。右键设置单元格格式在此处进行类型的修改,确定之后实现效果...
2020-11-18 13:12:53 4786 1
原创 vscode编译latex文件时出错I can‘t find the format file xelatex.fmt解决方法
fmtutil-sys --all使用该cmd指令可以安装一些之前丢掉的包运行完之后,成功
2020-11-16 15:51:34 3965 2
原创 自然语言处理-4-对数线性模型
文章目录1、Logistic回归模型2、最大熵模型3、条件随机场1、Logistic回归模型2、最大熵模型3、条件随机场
2020-11-13 22:37:59 155
原创 excel中值存在但是vlookup匹配不到的解决方法
在excel中,进行vlookup匹配时,由于数据一开始保存为csv格式,导致单元格里数值后面有\t换行符,这是使用pandas读入数据之后显示数据发现的,由于格式不统一,无法进行匹配,对有空格的数据单元进行CLEAN()函数处理之后可以匹配成功!...
2020-11-13 20:47:59 2821
原创 自然语言处理-3-支持向量机
文章目录1、分类问题2、支持向量机2.1 核心思想2.2 相关算法2.3 结论3、松弛变量4、核函数1、分类问题分类平面 :指的是分类器的决策边界,能够将不同类别的数据点分开。函数距离 :函数距离的正负可以表示分类的正确性和信心。几何距离 : 几何距离可以表示样本点到分类平面的距离。支持向量和支持平面 : 最靠近分类平面的点是支持向量,支持向量构成支持平面。分类器的分类间距 :指的就是支持平面之间的距离。2、支持向量机2.1 核心思想最大化分类间距2.2 相关算法拉格朗日乘子法梯度
2020-11-12 21:54:00 217
原创 自然语言处理-2-隐马尔科夫模型(公式推导)
文章目录1、自然语言处理常用模型种类2、马尔科夫模型2.1特点2.2状态初始化概率和状态转移概率2.3参数估计-极大似然3、隐马尔科夫模型3.1观测状态与隐状态3.2隐状态初始化概率、隐状态转移概率和观测状态生成概率3.3三个基本问题给定模型参数,如何计算一个观测状态序列的概率?1、自然语言处理常用模型种类**生成式模型:**根据山羊的特征,来算出这只羊是山羊的概率有多大;再根据绵羊的特征,算出这只羊是绵羊的概率为多大。再判断在哪个里面的概率更大,就属于哪一种。如Naive Bayes、Hidden M
2020-11-10 21:51:42 941 1
原创 自然语言处理-1-概述和数学基础
文章目录1、自然语言的特点2、自然语言处理的典型任务3、数学知识自然语言处理是一门利用计算机处理人类语言的交叉学科。1、自然语言的特点线性、层次性、歧义性、演化性2、自然语言处理的典型任务中文分词、词性标注、文本分类、语言模型、语法改错、句法分析(句子的结构分析)、拼音输入法、情感分析、语义角色标注(找出句子的主谓宾)、语义分析、指代消解(coreference resolution)、机器翻译、文本摘要、对联生成、诗词生成、问答系统、对话系统、图像标题生成、共指消解: 指的是找到一句话中指向一
2020-11-10 00:09:02 364
原创 运筹学-1-线性规划几种常见建模问题
example1:一个简单的线性规划问题example2:劳工时间分配问题example3:劳工时间分配问题的extensionexample4:多阶段劳工时间分配问题example5:多阶段生产和库存问题
2020-11-02 14:27:02 3228
原创 运筹学-4-非线性规划
1、一类是无约束问题unconstrained problem,此为问题在线性规划问题中是不存在的。2、在何时局部最优解也是全局最优解?对maximum问题来说:可行域是一个凸集,目标函数是凹规划对minimum问题来说:可行域是凸集,目标函数是凸规划3、海塞矩阵、鞍点...
2020-10-31 15:08:16 1626
原创 NLP-神经网络
前向神经网络 FNN参数多、固定输入(受限性高、输入维度固定),其本质是多元复合函数。前向传播输入信号产生误差,反向传播计算误差信息更新参数权重矩阵。网络结构前向传播反向传播计算推导过程递归神经网络RNN卷积神经网络CNN注意力神经网络ANN...
2020-10-29 14:14:26 193
原创 运筹学-3-NP-hard问题
判断一个线性规划问题好不好解,就要引入np-hard的概念。polynomial time是衡量算法快慢的分水岭。
2020-10-29 12:19:11 2921
原创 运筹学-5-整数规划
1、整数规划问题定义整数规划是指在线性规划中对某个变量有整数限制要求的问题。包括pure integer linear programming、mixed integer linear programming、0-1linear programming等。2、变量定义限制条件的使用使用binary variables来表示逻辑性条件限制。a. Stockco can invest in at most two investmentsb. Invest in exactly two investm
2020-10-28 22:19:52 1487
原创 关于next主题的设置(评论+阅读量+头像+社交帐号)
1、添加社交账号(邮箱和ins为例)在next-config文件内部修改social部分2、添加头像在next-source-images中存入想要的头像,然后在config文件中的avatar中修改即可3、增加评论和阅读量注册leancloud账号创建应用-开发版-名字自己取在应用keys这里可以找到id和密码。打开next-config文件,找到valine,修改对应的appid和keys,以及将enable改成true,然后刷新,即可出现评论界面,如果某个页面不想有评论,只
2020-10-14 22:05:01 757
原创 hexo博客创建+next主题配置
1、下载node.js https://nodejs.org/zh-cn/ 然后安装2、win+R然后cmd输入node -v查看下载的node js版本3、注册github账号,然后登录4、下载git for windows https://gitforwindows.org/然后安装5、githubssh配置ssh-keygen -t rsa -c “13372417535@163.com“不断回车直到实现以下效果6、打开github找到下面的文件7、hexo本地使用依
2020-10-14 21:57:56 182
原创 如何修改jupyter 默认打开浏览器为chrome
1、找到jupyter notebook的安装目录,我这里为C:\Users\Admin.jupyter一开始,这个目录里面没有.py格式的文件,只有.json格式的文件,为了产生.py的文件,输入jupyter notebook --generate-config之后可以发现多了一个.py的文件2、用sublime打开这个文件夹,利用ctrl+F,找到对应位置,在#c.NotebookApp.open_browser = True下面加入这段代码,import webbrowser webb
2020-10-14 21:43:18 2840 1
原创 tf.placeholder() is not compatible with eager execution.解决方法
我用的是tf 2版本,出现这个错误的原因分析如下:在tf 1 版本中,placeholder可以这么用,placeholder相当于一个占位符with是开启这个会话,等到有feed_dict喂入时,placeholder代表的参数才会真正地进入会话之中,运算开始进行。tf.placeholder() is meant to be fed to the session that when ru...
2020-04-01 23:23:32 5593
原创 jupyter notebook如何导入自己写的模块,如何保存为.py格式?
在未将自己写的模块保存为.py格式时,调用时会出现json的报null错误。这是因为.ipynb是以JSON模式编辑的,不能完全用python解释,可以用以下方法将.ipynb格式保存为.py格式,这样就可以被python解释。...
2020-04-01 22:49:53 7427
mnist数据集、tensoflow实现手写图片识别代码
2018-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人