- 博客(7)
- 收藏
- 关注
原创 kaggle金融的数据处理方式
kaggle金融数据的解决如何设置x和y拿股票来说,对于股票的众多属性都可以变成一个向量的形式。这个向量x = ( x1, x2, x3....xn) 注意,x1也是一个向量,这个向量是纵向的,有m个数值代表m个样本。x每一个数据里面不同的值,里面的值就是取值,可以来自于不同时间,或者不同公司。y代表各种触发状态。例如: X: [ Open, Prev Close, Big, Ask, Beta....
2018-03-28 17:46:23 1351
原创 《人工智能》工程师:支持向量机
支持向量机是一个有监督的二分类线性模型。核心方法:最大间隔分类器。与逻辑回归的对比:区别:逻辑回归输出的是一个概率模型,比如大于0.5分类为正,小于分类为负。支持向量机是确定的结果,输出是1或者-1。sgn(Wt) = -1 if Wt < 0;sgn(Wt) = 1 if Wt >= 0。损失函数的区别:L( Wt) = - y * logp(y=1|x) - (1-y)log(1-...
2018-03-27 17:56:27 398
原创 BoolanC++第一周笔记
第一周:C++面向对象高级编程(上)C++面向对象语言class中就应该包含两个部分,一个是复数,包括实部和虚部;第二部分就是能够对复数作用的函数,比如加减乘除。可以创造很多个复数的数值存储在内存地址中,函数就只需要一套地址。字符串对于string,字符串里面有一根指针,指向一串字符。当想要设计一个class需要指针时,需要很小心。基于对象面对的是单一的class的设计。面向对象面对的是多重cla...
2018-03-26 09:49:42 125
原创 《人工智能》工程师:最大熵和EM算法
最大熵信息:i(x) = -log(p(x)) 概率p是对确定性的度量,那么信息就是对不确定性的度量。熵:是对随机事件平均不确定性的度量。H(X) = -1*np.sum(p(x)*np.log(p(x))平均互信息:信息增益I(X;Y) = np.sum(P(x,y)*(np.log(P(x,y)/P(x)P(y)))最大熵模型熵最大的事物,最可能接近它的真实状态。熵最大的模型就是最好的模型。最...
2018-03-19 11:09:19 515
原创 《人工智能工程师》回归树模型
回归树模型初步当数据不是离散型变量而是数值或者连续值时,可以用回归树模型进行划分。回归树模型的本质是对样本空间的划分。划分的区域不相交的子区域。回归树模型的构建方法注意:区域Rj中的样本的结果是所有的样本点取平均得到的结果。RSS的偏差,这个是指预估结果和真实结果的差异。yi是真实值,yRj是指预估值(最小二分法)。为什么计算量大?空间划分有n种,那n种划分方式都要这么做就很难了。那么,要找到一个...
2018-03-11 14:23:30 600
原创 《人工智能工程师》决策树模型:剪枝与过拟合
分支过多造成过拟合剪枝:主动去掉分支降低过拟合的风险,增强泛化能力。基本策略:预剪枝和后剪枝。一个提前终止生长,一个树形成之后再剪。用留出法进行评估。预剪枝:先确定根节点,在验证集上确定哪个属性是最佳的。先不划分,就是通过标签去算精度看看得分多少;若划分,就看划分后的精度,如果精度上升就可以。然后形成划分后的叶节点和包含的子集,再依据子集的属性进行下面的划分。后剪枝:先考虑最后一个分支,方便,容易...
2018-03-08 17:40:50 697
原创 《人工智能工程师》树模型初步与进阶笔记
1.决策树模型决策树模型基于‘树的结构’进行决策。每个内部节点对应某个属性的‘测试’。每个分支对应于某个测试的一种可能结果(即该属性上的某个取值)。每个‘叶节点’对应于一个‘预测结果’。学习过程:通过对训练样本的分析来确定‘划分属性’。(内部节点的属性)预测过程:将测试事例从根节点开始,沿着划分属性所构成的‘判定测试序列’下行,直到叶节点。2.算法流程和最佳属性选择决策树的基本流程:总体流程:分而...
2018-03-07 21:31:29 321
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人