自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 异方差

异方差的实质不同样本的残差项方差不同,即Var(σi)≠常数Var(\sigma_i) \ne 常数Var(σi​)̸​=常数,Var(σi)Var(\sigma_i)Var(σi​)于XiX_iXi​有关产生的原因模型中忽略了重要变量,XXX的相关性归入了残差项。模型设定错误,如非线性关系设定为线性关系,忽略重要解释变量。数据测量误差。截面数据中总体各单位的差异。截面数据比时间序列...

2018-11-30 13:05:02 4357

原创 决策树

决策树大佬们的总结more details一、 决策树生成的重要问题数据如何分割:离散型按属性值分,连续型按区间分如何选择分裂的属性:找出能够使所有孩子节点数据最纯的属性(指标:信息增益,信息增益率)什么时候停止分裂熵熵描述了数据的混乱程度,熵越大,混乱程度越高,也就是纯度越低;熵的计算公式如下所示:Entropy=−∑i=1npi⋅log⁡(pi),Entropy=-\su...

2018-11-16 10:39:08 181

原创 《数文明》

量数:传统意义上的数据,即人类对事物进行测量的结果,关键是精确据数:源于对周围环境的记录是一种证据、根据,如照片、视频、音频。关键在于清晰地“留据”。目前以据数为中心的大数据讨论主要停留在一下就几个方面1、精准营销,即互联网广告业;2、商业和社会信用:如芝麻信用,先记录消费者信用,然后在后期从中获利;3、隐私问题。文字只是数据的一个子集。数惧普适记录:每个人都可以用一部手机录...

2018-10-19 21:04:08 972

原创 2018-10-18中国传统文化修养

神与人之间的关系汉代开始:天人感应说。 对于一些自然界事物、现象的观察。经书<–>纬书2

2018-10-18 18:14:10 558

原创 数据的读和取

输入输出cat()注意使用cat()时要自己加上换行符“\n”。它把各项转换成字符串,中间隔以空格连接起来,然后显示。 > cat(c("AB", "C"), c("E", "F"), "\n", sep=",") [1]AB,C,E,F &a

2018-10-17 23:34:53 160

原创 Data.frame

数据框是R的一种数据结构。它通常是矩阵形式的数据,但矩阵各列可以是不同类型的。数据框是一种特殊的列表对象。各列表成员必须是向量(数值型、字符型、逻辑型)、因子、数值型矩阵、列表,或其它数据框。向量、因子成员为数据框提供一个变量,如果向量非数值型则会被强制转换为因子,而矩阵、列表、数据框这样的成员为新数据框提供了和其列数、成员数、变量数相同个数的变量。作为数据框变量的向量、因子或矩阵必须具有相同...

2018-10-17 21:19:37 441

原创 list

列表是一种特别的对象集合,它的元素也由序号(下标)区分,但是各元素的类型可以是任意对象,不同元素不必是同一类型。元素本身允许是其它复杂数据类型,比如,列表的一个元素也允许是列表。列表元素用“列表名[[下标]]”的格式引用。但是,列表不同于向量,我们每次只能引用一个元素,如rec[[1:2]]的用法是不允许的。注意:“列表名[下标]”或“列表名[下标范围]”的用法也是合法的,但其意义与用两重...

2018-10-17 17:45:11 102

原创 因子

factor()factor(x, levels = sort(unique(x), na.last = TRUE), labels, exclude = NA, ordered = FALSE)可以自行指定各离散取值水平(levels),不指定时由x的不同值来求得。labels可以用来指定各水平的标签,不指定时用各离散取值的对应字符串。exclude参数用来指定要转换为缺失值(NA...

2018-10-17 17:18:15 329

原创 欧拉积分

Gamma函数B函数

2018-10-12 10:55:42 6088

原创 10月11日数据挖掘课堂笔记完善

10.11社会学什么是社会问题社会问题是由于社会关系或社会环境失调,致使人类全体(如人口过多、环境破坏、战争)、国家整体(如社会保障缺失、失业、贫富悬殊、歧视)或相当一部分成员(如家庭暴力、霸凌、性侵害)的共同生活受到不良影响,社会进步发生障碍并需要运用社会力量才能加以解决的社会现象影响相当数量的人,违背社会主导价值和规范的客观事实,社会问题的产生与人的道德有关,同时社会问题可以改变。...

2018-10-11 23:21:55 205

原创 10.11社会学

什么是社会问题社会问题是由于社会关系或社会环境失调,致使人类全体(如人口过多、环境破坏、战争)、国家整体(如社会保障缺失、失业、贫富悬殊、歧视)或相当一部分成员(如家庭暴力、霸凌、性侵害)的共同生活受到不良影响,社会进步发生障碍并需要运用社会力量才能加以解决的社会现象影响相当数量的人,违背社会主导价值和规范的客观事实,社会问题的产生与人的道德有关,同时社会问题可以改变。中国社会发展七...

2018-10-11 23:20:07 133

原创 数据挖掘引入

数据挖掘的内容KDD(Knowledge Discovery in Database):从数据中发现有用知识。数据挖掘(DM)被认为是KDD过程中的一个特定步骤。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。KDD,CRISP-DM,SEMMA模型对比KDD过程模型K...

2018-09-27 14:40:37 572

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除