- 博客(6)
- 收藏
- 关注
原创 随机森林(random forest)
刚开始接触它,以为这个方法只能用于分类,细细研究之后发现它既可以用于分类,又可以用于回归,此外,还能降维。虽然都呈现出树状结构,但随机森林与CART树不同,后者只生成一颗树,而前者生成很多颗。由于随机森林会进行两次抽样,所以会生成很多随机树。当在基于某些属性对一个新的对象进行分类判别时,随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出结果将会是票数最多的分类选项;而在回
2016-10-27 18:22:48 2302
原创 My SQL的 几个概念
1.主键主键是能够标识唯一记录的属性或属性组,比如,一条记录包括身份证号,姓名,年龄。身份证号是唯一能确定你这个人的,其他都可能有重复,所以,身份证号是主键。 一个表只能有一个主键,但可以有多个候选索引;主键常常与外键构成参照完整性约束,防止出现数据不一致。 主键可以保证记录的唯一和主键域非空,数据库管理系统对于主键自动生成唯一索引,所以主键也是一个特殊的索引。2.外键外键(foreign ke
2016-10-22 09:21:30 927
原创 My SQL数据定义语言(DDL)
1.生成数据库CREATE {DATABASE | SCHEMA} [IF NOT EXISTS] db_name [create_specification [, create_specification] ...] create_specification: [DEFAULT] CHARACTER SET charset_name | [DEFAULT] CO...
2016-10-21 21:54:33 763
转载 关联分析(二)
满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。如果Lift(X→Y)>1,则规则“X→Y”是有效的强关联规则。如果Lift(X→Y) <=1,则规则“X→Y”是无效的强关联规则。关联规则的结果分类: 可行的规则(可实际操作) 平凡的规则(规则显而易见,不够有用) 令人费解的规则(可实施性的原因不明确)关联规则挖掘过程
2016-10-11 16:30:46 1261
转载 关联分析(一)
关联分析是数据挖掘中很重要的一类技术,其实就是挖掘事物之间的联系。关联分析研究的关系有两种:简单关联关系和序列关联关系。简单关联关系经典的购物篮分析中有个例子说,购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐,这是一种简单的关联关系。序列关联关系比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳,这就
2016-10-11 10:19:01 5488
原创 缺失值NA的影响
最近学习logistic回归模型时,其中一步构造回归设计矩阵(mode.matrix)时遇到麻烦,现总结重点:1.解释变量的数据类型是连续型还是离散型,离散型的需要弄清楚各个水类的个数,防止出现NA水平,改变了数据的长度;”’{r}”’
2016-10-11 09:42:24 1356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人