自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 论文:最近邻条件独立性检测和基于PC的时序数据因果结构发现

依据Markov assumption,条件依赖一个节点的父亲节点,则这个节点和其他非子孙节点就是独立的,所以both 依赖两个节点的父亲节点,假设两者之间没有直接联系,那两者一定是独立的。本文侧重研究基于最近邻方法来实现条件互信息的计算和空分布的估计,从而执行条件独立性检测,因果结构发现是本文条件独立性检测的一个应用场景。通过permutation based method来估计H0的distribution,permutation产生1000个样本,计算每个样本的CMI估计分布。使用k近邻估计方法。

2023-04-07 17:04:14 463

原创 工具:conda

连接错误conda sslerror openssl appears to be unavailable针对错误:conda sslerror openssl appears to be unavailable on this machine,解法如下:使用conda-forge

2023-01-04 10:05:45 143

原创 工具:Github

Github的使用指南

2023-01-03 15:20:46 102

原创 工具:tensorflow

install and its application

2022-06-19 18:11:45 93

原创 金融:一级市场和二级市场的区别

一级市场,是发行市场,是企业直接和投资人之间的交易。二级市场,是流通市场,是指投资人之间的转让。IPO(Initial public offer)是一级,企业会确定发行价格,批准通过后进行发布。一旦IPO结束后,就可以在二级市场进行交易了。一级市场长期投资,二级市场是相对高频的交易市场。一级市场是企业直接和投资人交易,所以投资人需要对企业和这个行业的发展趋势都特别了解;在二级市场上,关注的不是一个企业,可能是一个行业,所以相对而言对行业的了解更重要一些。在二级市场上企业的事件性机会可能会给投资人带来短期的

2022-04-12 17:56:28 1801

原创 算法:动态规划

什么是DPDynamic Process(DP)是指满足最优子结构、无后效性、和有重叠子问题三个性质的求得最优解的方法。有重叠子问题不是DP的必要条件,但如果不具备的话,会使得DP在解决问题的时候丢失优势。DP是求解决策过程最优化的方法,决策过程就是可能分成多个阶段的。最优子结构:问题是由多阶段构成,每个阶段的最优解会推到出整个问题的最优解 无后效性:后面的计算结果和决策不会影响之前阶段的决策 有重叠子问题:子问题之间不是独立的。这点和分治算法是不一样的,分治思想下的子问题是互相独立的,然后合成

2022-02-06 22:15:34 167

原创 算法:二分查找和二叉树

好的算法可能在数据规模不大的时候并无优势,但当我们处理大数据问题的时候,优势就极为明显了。二分查找二分查找有个前提条件是数组已经排序了,可以是数值排序,也可以是字母排序或其他的排序,但一定不能是杂乱无章的。二分查找相比较顺序查找而言,数据量越大,优势越明显,二分查找的时间复杂度是O(logN),底数是2,但对于算法复杂度而言,无论底数是多少,其复杂度都是O(logN)。那顺序查找的平均查找长度ASL是多少呢,假设每个元素出现的概率相等,那就是(1/n) * n*(1+n)/2 = (1+n)/2如.

2022-02-02 11:39:29 1469

原创 数据结构:网上公开课

解决问题的效率和什么有关数据组织的方式:数据结构和空间的利用率有关:例如递归虽然代码很简单符合代码书写的美学,但很容易占据系统空间,从而带来系统崩溃。因为要存储每次调用的函数参数和相关结果,函数调用非常占据系统空间。斐波那契数列如果通过递归来实现,我们会发现针对每一个函数进行了多次的冗余计算。ref: 递归的缺点ref: 递推为什么会占用系统空间和算法的巧妙程度有关系秦九韶算法解决多项式问题的算法复杂度O(n),朴素算法是O(n的平方...

2022-02-02 11:39:14 502

原创 算法:哈希表

定义Hash表是一个查找表,根据key可以直接找到对应的数值。算法的复杂度是O(1),常数算法复杂度。构建Hash表需要做两个工作选择好的hash函数处理冲突的方法因为很难找到一个都不会产生冲突的hash函数,冲突的解释是不同的key,相同的函数值。hash表是一个查找表。一般性介绍哈希函数的方法这对key是数值构建的方法有:直接地址、数据分析、平方取中法(减少冲突)、折叠法(适用key特别长)、除留余数法(对p进行限制,不能包含20以下的质因子)、随机数法(random为为随机函数,用

2022-01-30 17:51:06 1020

原创 算法:时间复杂度

时间复杂度算法复杂度用于比较多种算法的效率。算法复杂度公式以N为自变量,度量算法的复杂情况。如果一个算法的计算量不超过N的多项式函数,那么称这个算法是多项式函数复杂度的。如果一个问题存在一个多项式复杂度的算法,那么称这个问题为P(Polynomial)问题。Non-polynomial的问题是实际无法解决的问题,比N的多项式函数还要高,例如计算每一步围棋的最佳走法。值得注意的是,不是所有的问题都确定说一定找不到N的多项式函数复杂度算法,可能只是当前没有找到,这类问题被称为Nondeterministic

2022-01-28 15:01:32 1096

原创 数学:基本知识点

被除数和除数除号后面的是除数(divisor),除号前面的是被除数(dividend)。被除数除以除数,除数除被除数。被除数除以除数得到的就是商。

2022-01-28 14:40:52 371

原创 编程:python问题集锦

数据处理问题是否需要担心python中整数溢出的问题?因为python的整数不是一个fixed size的,当int类型存储不了的时候,python会自动换成长整形。由于这个特性也会导致python的效率会偏低。工具python函数查询...

2022-01-28 11:15:01 985

原创 算法:图模型

现实场景图模型在现实中有很多应用场景,例如交通网络、商业交易、通信网络等。一般有四种比较重要的图模型:无向图、有向图、加权图和加权有向图。所谓图是由一组顶点和能够将两个顶点相连接的边构成。图的相关概念如果两个顶点通过一条边相连,我们称这两个顶点相邻。子图是由一幅图所有边的子集构成。需要注意的是很多具体问题中是需要识别各种类型的子图。路径是由边顺序连接的一系列顶点。连通图:如果从这幅图的任意一个顶点都可以找到一条路径达到另外一个顶点,那这幅图是连通图。一个非连通图是由多个连通图构成,每一个连通图都是

2022-01-28 09:15:55 2928

原创 python包:seaborn

%matplotlib inline # 用于jupyterimport seaborn as sns; sns.set()sns.pairplot(iris, hue='species', size=1.5); # 直接画出各特征之间的散点图,并且通过颜色区分不同的类别

2022-01-09 23:08:56 541

原创 python包:scikit-learn

1. 安装scikit-learnscikit-learn是安装时使用的名字,真正在程序中import的时候,使用sklearn,如下面的例子所示。import from sklearn.linear_model import LinearRegression2. scikit-learn的使用场景https://zhuanlan.zhihu.com/p/2597326143. scikit-learn关键的模块4. scikit-learn线性回归实战...

2022-01-06 22:54:17 1530

原创 工具:安装Rstudio

R安装和使用

2022-01-03 14:53:58 258

原创 算法:学习算法评估实验方法和性能指标

模型泛化评估实验设计和性能度量指标实验设计有hold-out,k-fold cross validation,和自助法。最受欢迎的是CV,自助法一般用于样本量比较小的case下。性能指标评估性能指标中如果不引入非均等代价的概念,对于regression有均方误差,对于分类有precision(TP/TP + FP)、recall(TPR = TP/TP + FN)、PR曲线、ROC曲线、FPR(FP/TN + FP)。ROC更看重模型在完成正样本准确定位的同时,泛化能力是否更好。如果带入非均等代价的

2022-01-02 11:05:41 629

原创 感想:数据、算法、程序员

在数据之美中提到:“一个优秀的计算机科学家或者工程师与平庸的程序员的差别就在于:前者总是不断寻找并且有能力找到好的算法,而后者仅常常满足于勉强解决问题”。寻找到最优的算法就是从事计算机科学的人应该努力的目标。算法复杂度来比较多种算法的效率。算法复杂度公式已N为自变量,计算算法的复杂情况。如果一个算法的计算量不超过N的多项式函数,那么称这个算法是多项式函数复杂度的。如果一个问题存在一个多项式复杂度的算法,那么称这个问题为P(Polynomial)问题。Non-polynomial的问题是实际无法解决的问

2020-07-06 10:33:53 186

原创 感想:数据和未来

不仅是信息技术行业,而且在传统行业中,数据创造价值的现状和趋势不可逆转。典型的搜索引擎因为用户行为数据的收集得以提供更加精准和匹配需求的搜索。在医疗保健行业,因为人类疾病和基金数据收集使得未来利用大数据技术攻克癌症这些难题成为可能。在未来,掌握和利用数据处理方法的人也必将成为新时代的成功者。“无论在什么领域,从事什么样的工作,誰懂得数据的重要性,谁会在工作中善用数据,就更有可能获得成功”。 - 数据之美。自2010年开始关于大数据的媒体宣传逐渐激增,百度指数可以一窥端倪。大数据不仅仅体现在量大,而且需要

2020-07-05 14:25:12 239

原创 计算机:二进制表示和处理

PD,所谓的产品经理,或者更精确的说是产品设计,在不同公司、不同部门被看重或要求的能力重心并不一样。在我看来,成为一个能够履职的PD有两点不可或缺——规划能力和解决问题的能力。需求的捕捉当然很重要,稍后再详聊。规划就是对版本迭代的控制,哪个版本需要发布哪些重点功能,发布是为了某个项目的交付还是抓住风口浪尖,都需要敏锐的观察力和行动力。PD要面对的人太多,关注重点也各不相同,怎么对症下药,让大...

2020-02-20 13:02:36 551

原创 算法:线性规划问题

线性规划问题线性规划问题应该是求解实际问题应用非常广泛的模型之一。通过约束条件确定了决策变量的可行域,在可行域(决策变量值组合)中找到使得目标函数最大(小)的一组或者多组。称之为线性规划的原因是目标函数中涉及到的决策变量都是一次方。solver in spicy for linear programing这个读明白了也就知道怎么用和解决了,很多数学的detail的东西可以不必太深究。...

2020-02-02 19:25:47 1034

原创 数据处理:python for data science学习记录

可以在线获取python for data science, 章节打开的速度比较慢,可以看一小节的时候,loading另外一个小节。Chapter 2 Understanding numpy动态创建更耗费内存在第一小节中介绍到python这种动态编程语言因为允许不用声明而创建变量,所以每一个创建的变量都带有变量的类型、存储地址及大小信息,相比较其他静态语言例如C就会需要更大的计算资源。所...

2020-01-05 21:10:40 482

原创 工具:Anaconda、Python、和Pycharm用于Python实战

安装Anacondahttps://docs.anaconda.com/anaconda/user-guide/getting-started/下载安装包完毕后,可以通过在terminal输出conda --version来查看是否可以直接从终端启动。如果不可以,需要在zshrc文件中增加export的path:export PATH="pathn/bin:$PATH""in whi...

2020-01-05 17:06:07 974

原创 计算机知识:DNS

dns解析因为安装homebrew的时候,总是无法从服务器下载,速度很慢。网上搜了下,发现将mac的dns换成google的8.8.8.8会加快速度,尝试了果然不错,至少不会hung up。所以就很好奇这个dns是啥,dns is short for domain name system. 下面的文章介绍的挺好的dns入门,dns可以理解为一个巨大的电话本,解析域名对应的ip地址,而这个解析...

2019-06-19 16:21:37 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除