Scala入门(2) 1 函数式编程思想纯函数,没有副作用即没有诸如修改全局变量、抛出异常、IO读写和调用有副作用的函数等状态变化参数和函数体都是引用透明即对于相同的输入,总是得到相同的输出。反例:append函数。为了获得引用透明性,任何值都不能变化。函数是一等公民一切都是计算,函数式编程中只有表达式(如变量、函数等)高阶函数闭包2 语言基础2.1 变量val、 var、 lazy val注:当定义的变量可能后续不会用到时可使用lazy val2.2 数据类型Unit:表示空,val x:
spark入门(1) 1. RDD1.1 RDD的定义RDD:resilient distributed dataset 弹性分布式数据集dataset:数据封装到集合中distributed:分布式存储数据resilient:数据优先存储在内存中,如果内存空间不足,再溢写到磁盘中1.2 RDD的特点分布式存储:数据分区内存优先:内存 > 磁盘数据可靠性:血统机制2 编程细节2.2 ...
spark工作机制 1 spark应用执行机制1.1 spark如何运行作业1.2 spark执行的底层实现原理spark底层实现中通过RDD实现数据管理利用BlockManger实现对RDD的块管理延迟执行,节省内存图调度器将包含操作的任务分发到指定的机器执行,在计算节点通过多线程的方式执行任务。...
玩转基金(3)买卖基金 1 基金定投按月定投:强制储蓄 、平摊风险(微笑曲线)定投优点:减少成本、门槛低、操作简单金额比例:(收入-支出)*(20%~50%)注意:稳定长期、量力而行定投基金:股票基金、指数基金长期目标:教育金、养老金等定投误区:忌不再关注止盈不止损,市场环境变好的时候要停止定投,落袋为安忌追涨杀跌长期收益忌定投失败一次失败并未停止忌赎回操作赎回不影响定投,需要办理终止定投...
玩转基金(2)购买基金 1 投资前的准备理财目标:保值(抗通货)、增值(盈利)资金情况:资产、负债备用资金:生活备用(4-6个月、应急、可购买货币基金)、保险保障风险接受度:高100%,中30%,低0%2 配置比例选择不同公司、类型、风险的投资组合,建议选择4只不同类型的基金购买风险接受度为中的配置比例如下:30%购买高风险的股票、指数基金50%购买稳健平稳的混合基金20%购买低风险的货币、债券...
ubuntu下安装matlab及配置vot-toolkit 1、ubuntu安装matlab关于在linux上安装matlab可以借鉴附录5-6,谢谢。2、ubuntu配置vot-toolkit2.1 配置vot-toolkit(matlab版)参考附录1配置matlab版很顺利,需要注意一点是可以参考附录2把workspace_load.m文件下第142行的文件路径换成下载好的vot2016数据集所在路径,省的代码下载太慢。2.2 配置vot-...
IDEA连接Spark集群执行Scala程序 前言关于Spark安装和使用以及Spark分布式集群环境搭建,请见参考内容1-4,这里就不作阐述了。步骤首先安装Scala插件,File->Settings->Plugins,搜索出Scla插件,点击Install安装;File->New Project->maven,新建一个Maven项目,填写GroupId和ArtifactId;编辑pom....
IDEA连接服务器执行python程序 一、前言pyCharm专业版实在太难破解了,决定重新拥抱IDEA。PS:关于Idea下Python开发平台的搭建,见参考内容1。二、操作步骤1 选择菜单Tools-Deploymenr-Configuration2 点击“+”号下面的SFTP3 命名可随意4 配置服务器连接信息以及文件映射信息5 连接服务器,因为前面已经配置好服务器信息,这里只需要选择相应的服务器(如前文的...
运营效果分析:假设检验 1. 基本思想和原理:小概率事件在一次观察或试验中几乎不可能发生的事情,叫做小概率事件;小概率事件在一次试验中发生的概率叫做显著性水平。假设检验的基本思想和原理就是小概率事件,即观测小概率事件在假设成立的情况下是否会发生。一般把不能轻易接受的结论作为备择假设,需要有充分理由才能否定的结论作为原假设。如果在一次试验中,小概率事件发生了,说明假设在一定显著性水平下不可靠,则有充分的理由拒绝原假...
深入理解(下)凸函数 1. 凸函数的定义1.1 凸函数的几何解释所谓凸函数,其实指的是下凸函数,从几何意义上看,凸函数就是任意两点之间的弦(即这两点构成的线段)都在该函数图像(此处是指这两点之间的函数图像,而非全部的函数图像)的上方。1.2 凸函数的数学解释如果≤\le≤换成<<<,则是严格凸函数的数学定义。Q:凸集的定义是什么?凸集的几何解释:如果集合C中任意2个点X...
LDA主题模型 概率图模型LDA(Latent Dirichlet Allocation)用于推测文档的主题分布。它将文档集中的每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或文本分类。1. 基础知识1.1 LDA属于贝叶斯模型LDA是基于贝叶斯模型的,涉及到贝叶斯模型离不开“先验分布”,“数据(似然)”和"后验分布"三块:后验分布=先验分布...
文本相似度算法:文本向量化+距离公式 1. 文本向量化1.1 词袋模型词袋模型,顾名思义,就是将文本视为一个 “装满词的袋子” ,袋子里的词语是随便摆放的,没有顺序和语义之分。1.1.1 词袋模型的步骤第一步:构造词典根据语料库,把所有的词都提取出来,编上序号第二步:独热编码,D维向量记词典大小为D,那么每个文章就是一个D维向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。1.1.2 词袋模型的缺点只...
特征选择和共线性问题 1. 特征选择的原因提高模型稳定性的需要提高模型预测能力的需要提高运算速度和运算效率的需要2. 特征选择的过程2.1 结合业务经验先行筛选很多时间业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围,准确圈定最有价值的预测变量,提高判断和筛选效率。2.2 用线性相关性指标进行初步筛选常用:皮尔逊相关系数r=∑(x−xˉ)(y−yˉ)∑(x−xˉ)2∑(y−yˉ)2r=\fr...
SQL备注 in 和 exists的区别子小主大用in: 如果子查询得出的结果集记录较少,主查询中的表较大且又有索引时应该用in;子大主小用exists:如果外层的主查询记录较少,子查询中的表大,又有索引时使用exists。其实我们区分in和exists主要是造成了驱动顺序的改变(这是性能变化的关键)如果是in,那么先执行子查询,所以我们会以驱动表的快速返回为目标,那么就会考虑到索引及结果集的关...