自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天天向上的专栏

心态与做事习惯决定人生高度

  • 博客(308)
  • 资源 (3)
  • 论坛 (15)

原创 python 下使用 gurobi,输出 mps,lp

gurobi 对 python 支持的不错,我已经编写了几个规划求解的例子。每次重新编程时,之前例子里的一些知识点又忘记了,觉得很有必要总结一下。

2020-09-03 11:27:45 206 4

原创 粗略读了一遍李子奈的《计量经济学》

暑假相对空闲时间比较多,于是粗略读完了李子奈的《计量经济学》。为什么要读计量经济学呢,主要有以下几方面原因:做实证研究基本都要用到计量经济学。了解计量经济学的理论后,大致可以清楚实证研究的套路虽然我现在主要做理论研究,但以后可能会用到实证研究及计量经济学的理论。理论研究比较难,普通学生上手不容易,以后指导学生或许要用到计量经济学。计量经济学其实跟统计学有着千丝万缕的联系。看了这本书,发现我对统计学的一些基本原理的理解更好了。但我发现这本教材有几个缺点:数学符号标注不是很规范。例如矩阵一般要用

2020-08-29 11:41:43 126 2

原创 python 爬虫:正则表达式 re 与网页解析包 Beautifulsoup

断断续续接触 python 爬虫一年多,确实挺有趣的。对于很多常规的网页抓取,发现技术难度也不是特别高。准备将一些使用心得,总结写一下,供以后自己查阅以及知识传播。由于网页(html)类似于 txt 一样的文本文档,因此爬虫其实就是从网页里找到想要的文本信息,爬虫的实质就是解析网页。解析网页一般有三种方式:利用 python 的一些字符串处理函数,例如:split, partition 等利用正则表达式利用 Beautifulsoup 包...

2020-08-12 19:00:34 109 1

原创 支持向量机(SVM)

大约从硕士阶段就听说过 SVM 了,但是没有真正用过,这几天刚好看了看相关的内容,就简单写一下心得,供以后查阅用。支持向量机是一个二分分类方法,比较适合判断只有两个类别的分类问题。从几何意义上看,SVM 的基本思想是找到一个分类的直线(或平面,或者非线性曲线或平面),将两个类别的数据分开。在数学原理上,优化目标是让中间的分割线离两类数据边缘的距离最大。构建一个数学优化模型,并利用拉格朗日对偶模型求解,具体可以参考这篇博客,比英文维基百科介绍地都清楚:https://blog.csdn.net/BIT

2020-08-03 14:51:37 103

原创 非线性规划的对偶问题

线性规划的对偶问题很容易写出,但非线性规划的对偶问题有点不一样。考虑非线性规划问题:min⁡xf(x)s.t.gi(x)≥0,i=1,…,m,hj(x)=0,j=1,…,l,x∈D.\begin{aligned}\min_{\textbf x}\quad & f(\bf x)&\\\text{s.t.}\quad & g_i(\textbf x)\geq 0, & i= 1, \dots, m,\\& h_j(\textbf x)=0, & j=

2020-08-02 23:37:07 179

原创 sklearn 中的数据预处理函数

sklearn 是 python 中一个常用的机器学习与统计分析包,功能十分强大,即能做普通的统计分析,也可以做一些常用的机器学习。在分析数据前,一般要对数据进行预处理,常用的数据预处理函数有:scale: 对每列数据进行快速标准化(z 标准化),以均值为0,标准差为1的正态分布对每列数据进行标准化MinMaxScaler: 标准化后每一列数据都落在 [0, 1] 之间StandardScaler: 类似于 Scale,只不过可保存训练集中的均值、方差参数Normalize: 对每一行按p-范

2020-07-31 01:01:50 104

原创 想起了清华校长的几句话

读博时,注意到了清华大学前校长陈吉宁先生的在一次毕业典礼的几句话,这些天又忽然想起。我相信,你们作为一名清华学生,有战胜懈怠的毅力,有走出彷徨的智慧,也有耐得住寂寞的情怀,但你们更需要的是不唯众、不跟风,不在意在普通的道路上是否比别人走得更快,而是具有从容地行走在无人知晓的荒原上的勇气。因为只有这样,你们才能看到别人看不到的风景。读博时深有感触,因为大部分同学都很努力,但是成果却差别很大,这也影响了不少人日后的就业和人生轨迹,有时候难免会急躁气馁。虽然我不是清华大学的毕业生,但是陈校长上面的几句话具

2020-07-01 10:26:52 326

原创 主成分分析 python, sklearn

六月份似乎太忙,将近一个月没有写博客,于是挑一个多元统计分析中的方法写一篇 python 操作实现的。主成分分析(Principle Component Analysis, PCA)是数据降维的一个方法:原始的统计数据中有很多变量,可以采用主成分分析方法将原始数据降维为少数几个变量的数据。主成分分析的求解一般采用特征根分解,即求解原始数据协方差矩阵或相关系数矩阵最大特征根对应的特征向量,即为第一主成分,第二主成分为第二大特征根对应的特征向量,其他的主成分可以依次得出。主成分贡献率为对应特征根占所有特征根

2020-06-24 15:27:03 592

原创 PP图,QQ 图,及 python 画图

统计学中有时会会用到 PP 图 或 QQ 图

2020-05-24 20:55:13 795

原创 Durbin-Watson 检验

Durbin-Watson 检验,又称 DW 检验,是用来检验残差的自相关性的。假设残差为 ete_tet​,各残差的相关性方程用 et=ρet−1+vte_t=\rho e_{t-1}+v_tet​=ρet−1​+vt​,检验的原假设为:ρ=0\rho=0ρ=0,备选假设:ρ≠0\rho\neq 0ρ​=0,检验统计量:d=∑t=2T(et−et−1)2∑t=1Tet2d=\frac{\sum^{T}_{t=2}(e_t-e_{t-1})^2}{\sum^{T}_{t=1}e_t^2}d=∑t=1T

2020-05-16 13:54:07 2363

原创 对国内学术环境的乐观与悲观

虽说我国学术界有不少问题,但是近几年的进步也是显而易见的,首先就是我国教师的收入比以前好多了。尤其是地方城市,为了吸引博士,都有很多引进政策。基本上能过上地方城市的中等或以上的物质生活。另外,我国及地方对科研还是比较重视,如果能发出优秀的论文,科研奖励和荣誉也是不会少的悲观的地方确实也有不少点,这里就引用知乎(https://www.zhihu.com/question/35...

2020-05-02 10:54:18 531

原创 java 运行时间显示小数秒

java 计算程序运行时间时,常用的类为:System.currentTimeMillis()。显示计算机的当前时间,单位为毫秒。若要显示程序运行时间,则前后两个 System.currentTimeMillis() 相减即可。结果的单位是毫秒,若要显示为秒,则需要除以 1000;若要显示为小数秒,则需要除以 1000.0。直接除以整数 1000时,显示的是四舍五入的整数秒。举例:pub...

2020-04-23 11:52:11 262

原创 线性分式规划

对于一个线性分式规划,可以将其转化为线性规划问题求解。

2020-04-20 20:03:02 380

原创 spss 的判别分析输出结果解读,P(D>d|G=g), P(G=g|D=d),个案输出结果 casewise statistics

经过查阅资料,终于弄明白了 spss 判别分析的一些结果:预测组,给出的结果是贝叶斯判别的预测结果P(D>d|G=g):在既定组内,大于某样本的概率。设既定组的累计分布函数为 Fg()F_g()Fg​(),样本向量表示为 x\bf xx,则它的值为,1−Fg(x)1-F_g(\bf x)1−Fg​(x)P(G=g|D=d):该样本的后验概率到质心的平方距离:该样本的 fishe...

2020-04-17 16:57:55 406

原创 python 聚类分析 k means

下面是一个简单利用 kmeans 聚类分析的例子,数据为某一年全国31个省市的居民消费支出数据:

2020-04-04 12:04:32 437

原创 python 金融数据包 pandas_datareader, tushare 与 yfinance

python 提供金融股票数据的包,国外的包有 yfinance, 国内的包有 tushare。都是免费的,因此这两个包维护更新不快,有部分功能可能待修复。1. yfinance之前的名字叫 fix-yahoofinance,官方说明:https://pypi.org/project/yfinance/可以抓取雅虎财经网站上的股票信息,似乎全是美股。这几天国内不能用,可能雅虎财经的网...

2020-03-29 12:14:13 2146

原创 python 爬虫入门--抓取名著古籍

古诗文网中的名著古籍比较多,选取从这个网站上抓。https://so.gushiwen.cn/guwen/可以在上面选取任一个古籍,点击打开复制链接,然后在下面代码中替换相应古籍的链接。下面代码中,抓取的是《西游记》:# -*- coding: utf-8 -*-"""Created on Fri Mar 27 20:14:04 2020@author: zhen chenMI...

2020-03-27 21:52:24 302

原创 python 爬虫入门--抓取红楼梦小说

爬虫抓取网页的三个基本步骤:获取网页 html (用 request 包)解析网页,找到我们想要的内容(用 beautifulsoup 包等)输出内容找到一个在线红楼梦网址:http://www.shicimingju.com/book/hongloumeng.html从这个网站抓取红楼梦,不过这个网站缺少 28 回,代码如下:# -*- coding: utf-8 -*-"""...

2020-03-27 20:12:53 543 4

原创 贵在坚持

颜真卿曾有一首劝学诗,其中两句是 “三更灯火五更鸡,正是男儿读书时”。后来一位著名人物反其意而用之,写了一副对联:“贵有恒,何必三更起,五更眠;最无益,最怕一日曝,十日寒”。做大事者,不是突击,贵在每天的坚持与积累。Step by step....

2020-03-24 15:35:38 192 1

原创 生成随机数的原理,生成多元分布随机数

如何生成随机数及多元分布的随机数,发现佐治亚理工的一个课件,讲的特别详细,包括多种方法,以及如何生成多元正态分布的随机数:https://www2.isye.gatech.edu/~sman/courses/6644/Module07-RandomVariateGenerationSlides_171116.pdf要是打开速度慢的话,从 csdn 下载:https://download.cs...

2020-03-15 14:35:56 365

原创 spss 系统聚类里的组内连接法

做系统聚类时,spss 提供了好几种定义类距离的方法,其中,组间连接(between groups)就是教科书中的类平均法。组内连接(within groups)一直没找到定义,用谷歌搜索了下,终于找到了一个资料:http://www.norusis.com/pdf/SPC_v13.pdf组内连接的意思是:两个类中所有样品两两之间的距离平方和的均值。而组间连接只计算不同类中样品的距离,同类中样...

2020-03-05 18:22:45 1913

原创 经验分布函数 与 bootstrap 方法

当总体分布函数未知时,当样本容量足够大时,可以用经验分布函数替代。经验分布函数的定义为:设 X1X_1X1​, X2X_2X2​, …, XnX_nXn​ 为总体分布的一个样本, −∞<x<∞-\infty<x<\infty−∞<x<∞,用 S(x)S(x)S(x) 表示 X1X_1X1​, X2X_2X2​, …, XnX_nXn​ 中不大于 xxx 的随机...

2020-02-27 12:14:30 538

原创 Excel 中的协方差阵

Excel 的数据分析可以直接求得样本的协方差阵,但是经过我验证,发现得到的样本协方差阵并不是那个无偏的协方差阵,需要乘以nn−1\frac{n}{n-1}n−1n​才是,因为 Excel 中的计算公式为:Σ^=1nA\hat{\Sigma}=\frac{1}{n}AΣ^=n1​A其中,A 为样本离差阵,而无偏的样本协方差阵为S=1n−1AS=\frac{1}{n-1}AS=...

2020-02-23 15:10:56 665

原创 关于讲课

自从入职以来,发现自己对于讲课并不排斥,是因为通过讲课,我可以熟悉或学习一些新知识,并且在讲课的过程中,自己对知识的理解会越来越好。然而,讲课会耗费大量时间,尤其是刚接手一门新课程时。自己做 ppt 十分耗时间,从网上找 ppt 基本都要自己修改,也要花费大量时间。更重要的是,这些教学的时间挤占了科研时间,会觉得天天十分忙碌。怪不得不少人不喜欢讲课。近两三年应该不会讲新课了。...

2020-02-20 20:47:51 235

原创 项目申请书

每次写项目申请书总觉得很吃力,效率特别低。像挤牙膏那样很久才写几句话。项目申请书像一个命题作文,目前不是很会编故事。需要慢慢练,慢慢积累经验。。即使做的慢,也比不做强。...

2020-02-15 16:59:08 395

原创 如何评价一个人的科研能力

怎么评价一个人的科研能力呢?比较直观的是看这个人发表的论文,但这只是一方面。

2020-01-28 16:41:31 1800

原创 计量经济学

入职之前,没有怎么接触过计量经济学,后来见不少同事们的研究基本全用到了计量经济学,才知道还挺有用的,有的学者甚至在 nature 子刊发的论文就是用的计量经济学。计量经济学当然没有统计学难,属于统计学的一个分支,特别适合用来做实证分析。本来可以讲这门课,但我选择讲《多元统计学》,准备自学这个《计量经济学》了。...

2020-01-16 22:21:06 503

原创 戏剧的半年

这半年似乎发生了许多事,现在想起来,有点好气也有点好笑。就像我的论文投稿一样一波三折。似乎投稿了一圈又回到了原点,又似乎峰回路转。。...

2020-01-12 23:48:22 337

原创 入职接近一年的感想

谈谈入职近一年的感想:地方高校无论是教师水平还是学生水平,跟北京的高校有一些差距,也没有那边的教师或学生勤奋科研时间明显减少,因为有很多乱七八糟的杂事打扰。现在的平均科研时间不足读博时的五分之一地方高校比北京那边更加黑暗,各种黑箱操作小圈子。申请地方项目比较顺利的很多都有一定关系与毕业前相比,接触的大部分人都很现实。很多人都不单纯,给你好处时其实是怀有目的的,各种利益往来地方高校在管理...

2020-01-08 08:18:42 603

原创 latex 章节序号改为中文

查了很久,需要用到 zhnum 这个包,发现将下面几句代码插入前面,就能实现章节序号为中文:\usepackage{zhnumber} % change section number to chinese\renewcommand\thesection{\zhnum{section}}\renewcommand \thesubsection {\arabic{section}}实现的效果...

2020-01-05 20:32:11 2343 3

原创 第二首诗

2019,一直想写个总结,却也不知道写什么。贴出我的第二首诗:

2019-12-29 22:03:32 290

原创 使用 python 做线性回归,scipy,statsmodels,sklearn

使用 python 做线性回归分析有好几种方式,主要的分别是 scipy 包,statsmodels 包,以及 sklearn 包。但是,这些包目前都不能处理共线性,即自动剔除部分共线性的变量,需要自己去编函数,这一点不如 spss 或 r 语言。1. 用 scipy 包做线性回归...

2019-12-15 21:35:41 8854

原创 终于申请上了博客专家

从博客访问量过了 10 万开始,我前后至少申请了 3 次博客专家,昨天第 4 次申请终于通过了。通过的原因可能有以下几点:博客访问量已有一百多万,综合排名全站两千左右之前申请时我还是博士生,现在我已经是大学教师,上传工作证后批准。csdn 众多博客专家中,大学教师职业的还是少数相对于一年前,目前我的博客增加了不少 python 编程的相关内容,技术含量比以前提高了当然,csdn ...

2019-12-13 23:42:55 311

原创 多元统计学

安排了下学期讲《多元统计分析》,因为我学过这门课,本来不觉得多么难。然而拿到教材后,才知道理论那么深奥,这门课比高等数学都难。我记得硕士期间学这门课老师对理论部分讲的很简单,讲了一些操作,总体讲的很一般。我自己读了好几本多元统计学的教材,发现这些教材参差不齐,没有一个完美的:要么写的太难,堆了不少高深的矩阵知识上去,有一些理论做统计分析时很少用到,我觉得没啥必要都放到书里面去;要么写的太简略,一...

2019-12-06 22:58:47 343

原创 用 python 做 z 检验,t 检验

文章目录1. z 检验2. t 检验Python 中的假设检验一般用到 scipy 或 statsmodels 包,需要注意的是,这两个包里面各种检验的置信度都是 0.05。1. z 检验对于大样本数据(样本量 ≥\geq≥ 30),或者即使是小样本,但是知道其服从正态分布,并且知道总体分布的方差时,需要用 z 检验。在 python 中,由于 scipy 包没有 z 检验,我们只能用 st...

2019-12-03 23:27:56 2487

原创 python 计算概率密度、累计分布、逆函数

计算概率分布的相关参数时,一般使用 scipy 包,常用的函数包括以下几个:pdf:连续随机分布的概率密度函数pmf:离散随机分布的概率密度函数cdf:累计分布函数百分位函数(累计分布函数的逆函数)生存函数的逆函数(1 - cdf 的逆函数)函数里面不仅能跟一个数据,还能跟一个数组。下面用正态分布举例说明:>>> import scipy.stats as st...

2019-12-03 22:54:53 6250 2

原创 python 计算众数、中位数、分位数、偏度、峰度

python

2019-12-03 22:50:52 1513

原创 教师的忙碌

进入教师岗之后,总感觉乱七八糟各种事情。学院一些事情要新老师帮忙,有同事找你帮忙,有些应酬不得不去,我要写自己的新论文,我要修改自己的老论文,我要与其他学者合作写论文,我还要备课,我还要注意申请课题,我还想写书。。...

2019-11-30 20:45:12 314

原创 学术与现实

搞科研时,为了论文的发表,做了一些假设与理想化处理,到最后发现研究的东西可能跟现实有点脱节了。很多现实的问题,在学术上不好研究发表。这是一个取舍(trade off)。...

2019-11-29 15:37:52 250

原创 Kolmogorov-Smirnov 检验 与 卡方检验

1. Kolmogorov-Smirnov 检验在检验一个样本是否服从既定的分布时,或者检验两个样本是否来自同一个分布时,可以用 Kolmogorov-Smirnov 检验,简称 KS 检验。该检验被归为非参数检验(非参数检验是在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法),而 参数检验是在总体分布已知的情况下,对总体分布的均值或方差等进行检验。2. χ2\c...

2019-11-16 18:45:10 2473

java 调用 Cplex 使用手册

java 调用 Cplex 使用手册, CPLEX Tutorial Handout。

2017-11-15

Cplex, Ilog, OPL 使用手册,manual

IBM ILOG CPLEX Optimization Studio Getting Started with the IDE

2017-11-14

Cplex OPL 使用手册,OPL 编程

Modeling Optimization Problems with IBM ILOG Cplex Optimization Studio

2017-11-14

rand()/(RAND_MAX+0.0)与rand()/(RAND_MAX+1.0)的区别?

发表于 2014-10-11 最后回复 2020-04-11

为什么博客一篇文章总是审核不通过?

发表于 2020-03-24 最后回复 2020-03-24

心态与做事习惯决定人生高度的留言板

发表于 2020-01-02 最后回复 2020-01-02

latex 数学公式不能正确显示

发表于 2018-02-08 最后回复 2019-11-30

新建专栏显示文章数、访问量错误

发表于 2018-12-19 最后回复 2018-12-21

帮忙删除一个重复的专栏

发表于 2018-12-19 最后回复 2018-12-19

博客文章管理,默认打开模式请改为阅读模式

发表于 2018-07-29 最后回复 2018-07-30

使用new来动态分配结构体数组,初级C++问题

发表于 2014-03-02 最后回复 2017-08-11

C语言返回一个数组时,输入数组初始化方式对程序正确性的影响

发表于 2016-12-09 最后回复 2016-12-09

读取txt中的数据和文本

发表于 2014-12-31 最后回复 2015-01-02

标记帖,目前在自学C++

发表于 2014-02-24 最后回复 2014-10-23

error LNK2019: 无法解析的外部符号 "void __cdecl ShowReview(struct Review &)" (?ShowReview

发表于 2014-10-11 最后回复 2014-10-12

读取文件中信息,包括动态字符串数组,C++premier plus的一道课后题

发表于 2014-04-02 最后回复 2014-04-05

结构体初始化

发表于 2014-03-25 最后回复 2014-03-26

请问学C++想用来做一些优化算法的研究,例如启发式算法等,还用学习数据结构吗?

发表于 2014-02-07 最后回复 2014-02-08

空空如也
提示
确定要删除当前文章?
取消 删除