2015年11月_shuaishuai3409

12月 11月 10月

原创聚类分析--k中心点算法

k中心点算法思想：k-means是每次选簇的均值作为新的中心，迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的，因为一个具有很大极端值的对象会扭曲数据分布。那么我们可以考虑新的簇中心不选择均值而是选择簇内的某个对象，只要使总的代价降低就可以。PAM（partitioning around medoid，围绕中心点的划分）是具有代表性的k-medoids算法。它最初随机选择k个对象作为中心点，

2015-11-24 17:26:23 28809

原创分类算法属性选择度量--信息增益、增益率、Gini指标

属性选择度量就是分裂规则，用来确定分裂属性和分裂子集信息增益信息增益：某属性的信息增益值越大，这个属性作为一棵树的根节点就能使这棵树更简洁，降低树的高度。衡量给定属性划分训练样本的能力。计算信息增益的公式需要用到“熵”（Entropy）。熵：衡量任意样本集的纯度，熵越小，样本纯度越高。

2015-11-22 19:27:12 9563

原创决策树归纳分类算法理解

决策树归纳分类算法理解决策树归纳是从类标记的训练数据构建决策树，属于分类领域。遍历根节点到全部叶节点的路径，每条路径都属于一个元组分类。整棵决策树形成分类规则。目前构造决策树的算法包括ID3（iterative dichotomy），C4.5，CART，都基于如下抽象的算法流程，现通过一个详细的数据集对算法进行详细解释：该算法名称Generate_decision_tree（，，），递归进行决策树构。

2015-11-19 23:37:42 5658

原创 K—means算法实现流程

K-means算法实现流程

2015-11-14 22:05:34 1513

天池大神机器学习岗面试资料

这是天池大数据竞赛排名top10的大神Bryan，他亲身经历的各大互联网公司的面试，整理出的一套相对完整的机器学习岗位面试资料。涉及到了面试的方方面面，与大家分享下。

2016-10-21

基于cookie显示用户浏览记录

- 项目需求：设计一个可以根据cookie显示用户浏览记录的图书网站。要求设计出三个界面，登录界面、网站主页和图书详细信息界面。用户成功登录后，进入图书网站，网站会显示当前所有图书，以及该用户最近浏览过的图书。当用户点击某本图书后，进入图书详细信息界面，同时用户最近浏览记录里会增加这本书。 - 实现思路：按照需求共三个界面，所以可设计三个servlet，每个界面对应一个。登录界面：写一个form表单，提取用户名和密码，如果正确则通过action跳转到网站主页，错误，提示用户重新输入。网站主页：核心。主页分成上下两部分，上部分是显示当前所有图书的名字，而且是以超链接的形式，当用户点击某本图书后，会跳转到图书详细信息界面上。下半部分是用户最近浏览的图书，通过读取浏览器的cookie数据，将符合条件的图书名字显示到主页上。图书详细信息界面：当用户点击超链接后，显示该图书详细信息，然后把该图书编号id及书名name写入到cookie中，返回给浏览器。

2016-10-14

反射在实际开发中的应用

本段代码是在学习了反射相关知识后，结合实际开发经验，以一个简单demo讲述开发中是如何利用发射进行开发。主要包含以下三个知识点：1.以tomcat为例，讲述其基于反射运行的原理。2. 反射的三种实现方式--获取字节码对象的三种方法。 3.获取class的字段（field）4.获取class的方法（Method）。

2016-08-14

xgboost在windows下的安装

在windows安装xgboost，本人亲测，有用。

2016-04-25

winows下python安装xgboost的包

由于xgboost的作者在github上删除了xgboost在windows系统下的目录文件，所以导致大家无法安装xgboost。本人通过亲自实践，教大家一步步在win下安装xgboost，这个是之前的xgboost的C++版本，是在python使用xgboost之前必须的包。

2016-03-18

单链表反转

单链表反转是面试时经常会遇到的问题，之前只是在数据结构里用伪代码实现过单链表反转。为落实亲手编写每一个程序的目标，在这里用java实现反转。方法有很多，这里只写最优的。时间复杂度O(n)，空间复杂度O(1)。也就是说不新开辟空间，原地反转。

2016-02-27

随身云数据挖掘竞赛解题思路ppt

前阵子参加牛客网举办的数据挖掘竞赛，数据源源自中华万年历的“生活圈”数据，类似于朋友圈，用户可以发表各种帖子，也可以对帖子内容进行赞踩等行为。数据内容是用户11月份的帖子浏览记录，以及前27天对帖子的赞踩记录，共约8G。目标任务是根据用户11月份的浏览记录，以及前27天赞踩记录，挖掘出用户的个人喜好，然后预测用户对月末28，29，30这三天出现的帖子的赞踩行为。本文给出解题思路及数据来源。

2016-01-23

考研的经验分享

这是一篇关于考研经验分享的ppt，在这里我清晰的描述了考研的基本流程，以及考研过程中的收获与建议。

2015-10-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 聚类分析--k中心点算法

原创 分类算法属性选择度量--信息增益、增益率、Gini指标

原创 决策树归纳分类算法理解