自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Chook_lxk的博客

你前程有在,但须澄心猛省,不可自甘堕落。github地址:https://github.com/lxk1997

  • 博客(6)
  • 收藏
  • 关注

原创 数据挖掘 -- C4.5决策树算法

1. 算法原理C4.5算法: 首先根据训练集求出各属性的信息熵info, 然后求出类别信息商infod, infod - info[i]得到每个属性的信息增益gain, 然后计算每个属性的信息分裂度h, gain[i] / h[i]得到属性信息增益率。递归选择信息增益率最高的属性,按照该属性对数据集进行分裂,判断分裂之后的数据集类别是否为’纯’的,如果是则将当前分裂属性作为叶节点,如果不是继续递...

2019-04-23 11:29:41 980

原创 数据挖掘 -- FP-Tree关联规则算法

1. 算法原理FP-Tree相对于Apriori算法,减少了I/O的次数,原理是先找到原数据的频繁1项集,即项头表。得到后按照项头表的sup值给初始表排序。并且创建树形结构,每个节点存节点名称和出现次数。将初始表迭代放入树中,建树过程完成。挖掘过程是倒序遍历项头表,对于每个s,寻找s在树中到根的路径,组合其余分支的s, 父节点的sup值为所有s节点的sup值之和。得到频繁项集。最终求出最大频繁项...

2019-04-18 09:45:46 1078

原创 数据挖掘 -- Apriori关联规则算法

1. 算法原理Apriori关联规则算法的目的就是找出所有的频繁项集,所以需要定义一个评估标准找出频繁项集,即最小支持度。 首先从原始数据集中找出出现的所有项,对应数据集确定候选1项集,根据候选一项集每项在原始项集中的出现次数计算每一项的sup值。比较sup值 / 原始数据集数 的值与最小支持度,小于则舍去,计算出频繁一项集,然后对频繁一项集两项之间求补集,并按照一项集中求sup的方法求取候选二...

2019-04-15 16:21:32 487 1

原创 Java学习笔记 -- 序列化与反序列化(Protocol buff 与 Java序列化协议的比较)

1. 什么是序列化与反序列化?序列化就是将代码中的对象的某一个状态转化成字节数组的过程,也就是转化成二进制文件的过程。反序列化与之相反。2. 为什么要进行序列化?在将对象存储在文件中或者通过网络进行传输的时候,对象是不能直接存储和传输的,所以要将它序列化为对应的二进制代码。3. 实现序列化的常用方式有哪些?使用Java的序列化协议(实现Serializable接口)使用Goo...

2019-04-13 17:54:31 719

原创 Mina学习 -- 自定义协议包的传输

Protocolmina实战Demo – c/s自定义协议传输Github项目源码为什么要进行自定义协议传输?因为传输过程往往不是一个字符串就可以传输全部信息,并且应用程序和网络通信之间存在对象与二进制之间的转换关系。所以需要结合业务编写自定义协议包进行传输。编写自定义协议的基本步骤通过mina文档可以看到,要实现自定义协议传输需要实现ProtocolCodecFactory接口,而P...

2019-04-11 15:10:30 581

原创 Java学习笔记 -- IO&NIO&AIO学习

1. BIO、NIO、AIO的区别?BIO的特点:面向流、阻塞IO面向流的IO只能一个字节一个字节读取,通过输入流产生一个字节数据,输出流消费一个字节数据,字节处理速度缓慢。并且在调用read()和write()时线程阻塞,直到有数据被读取或全部数据被写入。阻塞期间不能进行任何其他操作。NIO的特点:面向缓冲区、非阻塞IO、同步缓冲区(Buffer): 除boolean外,其余每个基本类型...

2019-04-09 21:34:58 228

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除