2016年10月_Distrlili

原创随机森林(random forest)

刚开始接触它，以为这个方法只能用于分类，细细研究之后发现它既可以用于分类，又可以用于回归，此外，还能降维。虽然都呈现出树状结构，但随机森林与CART树不同，后者只生成一颗树，而前者生成很多颗。由于随机森林会进行两次抽样，所以会生成很多随机树。当在基于某些属性对一个新的对象进行分类判别时，随机森林中的每一棵树都会给出自己的分类选择，并由此进行“投票”，森林整体的输出结果将会是票数最多的分类选项；而在回

2016-10-27 18:22:48 2302

原创 My SQL的几个概念

1.主键主键是能够标识唯一记录的属性或属性组，比如，一条记录包括身份证号，姓名，年龄。身份证号是唯一能确定你这个人的，其他都可能有重复，所以，身份证号是主键。一个表只能有一个主键，但可以有多个候选索引；主键常常与外键构成参照完整性约束，防止出现数据不一致。主键可以保证记录的唯一和主键域非空,数据库管理系统对于主键自动生成唯一索引，所以主键也是一个特殊的索引。2.外键外键（foreign ke

2016-10-22 09:21:30 927

原创 My SQL数据定义语言(DDL)

1.生成数据库CREATE {DATABASE | SCHEMA} [IF NOT EXISTS] db_name [create_specification [, create_specification] ...] create_specification: [DEFAULT] CHARACTER SET charset_name | [DEFAULT] CO...

2016-10-21 21:54:33 764

转载关联分析（二）

满足最小支持度和最小置信度的规则，叫做“强关联规则”。然而，强关联规则里，也分有效的强关联规则和无效的强关联规则。如果Lift(X→Y)>1，则规则“X→Y”是有效的强关联规则。如果Lift(X→Y) <=1，则规则“X→Y”是无效的强关联规则。关联规则的结果分类：可行的规则（可实际操作）平凡的规则（规则显而易见，不够有用）令人费解的规则（可实施性的原因不明确）关联规则挖掘过程

2016-10-11 16:30:46 1261

转载关联分析（一）

关联分析是数据挖掘中很重要的一类技术，其实就是挖掘事物之间的联系。关联分析研究的关系有两种：简单关联关系和序列关联关系。简单关联关系经典的购物篮分析中有个例子说，购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的，二者没有共同属性，但是二者搭配后就是一顿美味早餐，这是一种简单的关联关系。序列关联关系比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳，这就

2016-10-11 10:19:01 5488

原创缺失值NA的影响

最近学习logistic回归模型时，其中一步构造回归设计矩阵(mode.matrix)时遇到麻烦，现总结重点：1.解释变量的数据类型是连续型还是离散型，离散型的需要弄清楚各个水类的个数，防止出现NA水平，改变了数据的长度；”’{r}”’

2016-10-11 09:42:24 1356

G090909的博客

原创随机森林(random forest)

原创 My SQL的几个概念

原创 My SQL数据定义语言(DDL)

转载关联分析（二）

转载关联分析（一）

原创缺失值NA的影响

空空如也

空空如也

原创 随机森林(random forest)

原创 My SQL的 几个概念

原创 My SQL数据定义语言(DDL)

转载 关联分析（二）

转载 关联分析（一）

原创 缺失值NA的影响

空空如也

空空如也

原创随机森林(random forest)

原创 My SQL的几个概念

转载关联分析（二）

转载关联分析（一）

原创缺失值NA的影响