- 博客(18)
- 资源 (5)
- 收藏
- 关注
转载 Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种自己最熟悉
2016-06-26 10:15:20 1190
转载 weka的java使用(3)——特征选择
CFS的算法,可以参考这篇文章correlation-based feature selection for machine learning。继续weka的编程系列。数据挖掘的一个重要的过程就是要特征选择,主要作用就是降维,并且降低计算的复杂性,摒弃那些可能的潜在噪声。在我的paper中和硕士论文中都用到了CFS的特征子集选择方法,配以最佳优先的搜索或者贪心搜索,这样可以将维度比较高的训
2016-06-24 10:34:33 5034
转载 特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其
2016-06-24 10:18:56 1433 2
转载 Hadoop当中查看目录和文件是否存在
fs -test -e可以用来检查文件或目录是否存在fs -test -d用来检查指定目录是否是一个目录,但首先要查检该位置是否存在。因此在检查一个目录是否存在时,只能用-test -ehadoop判断文件是否存在 在shell中判断一个HDFS目录/文件是否存在 直接看shell代码: hadoop fs -test -e /h
2016-06-20 16:41:46 20936
转载 crontab定时器(包括执行shell)
crontab定时器(包括执行shell) 今天在网上看到这篇不错的教程,是介绍CronTab的,写的很清楚。所以转载过来,做个分享。限制用户使用crontab的文件有:/etc/cron.allow /etc/cron.deny 。 当使用crontab建立工作排程后,将被记录到/var/spool/cron里。 cron执行的每一项工作都被记录到/var
2016-06-20 16:41:09 802
转载 数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和
2016-06-13 19:24:23 14541
转载 FP-Tree频繁模式树算法
参考资料:http://blog.csdn.net/sealyao/article/details/6460578更多数据挖掘算法:https://github.com/linyiqun/DataMiningAlgorithm介绍FP-Tree算法全称是FrequentPattern Tree算法,就是频繁模式树算法,他与Apriori算法一样也是用来挖掘频繁项集的,不过不同的是,
2016-06-13 19:23:03 12035
转载 Apriori算法详解之【一、相关概念和核心步骤】
感谢红兰整理的PPT,简单易懂,现在将其中精彩之处整理,与大家分享。一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地
2016-06-13 19:21:28 1850
转载 LDA(Latent Dirichlet Allocation)主题模型算法
LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出的两个结果
2016-06-13 19:20:02 442
转载 一个 fork 的面试题
前两天有人问了个关于Unix的fork()系统调用的面试题,这个题正好是我大约十年前找工作时某公司问我的一个题,我觉得比较有趣,写篇文章与大家分享一下。这个题是这样的:题目:请问下面的程序一共输出多少个“-”??12345678910111
2016-06-10 22:58:02 437
转载 那些不能遗忘的知识点回顾——C/C++系列(笔试面试高频题)
有那么一些零碎的小知识点,偶尔很迷惑,偶尔被忽略,偶然却发现它们很重要,这段时间正好在温习这些,就整理在这里,一起学习一起提高!后面还会继续补充。——前言1.面向对象的特性 封装、继承、多态。 封装:把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的进行信息隐藏。(优点:可以隐藏实现细节,使得代码模块化) 继承:
2016-06-09 16:01:46 472
转载 那些不能遗忘的知识点回顾——操作系统系列(笔试面试高频题)
有那么一些零碎的小知识点,偶尔很迷惑,偶尔被忽略,偶然却发现它们很重要,也是各大笔试和面试高频出现考点。这段时间正好在温习这些,就整理在这里,一起学习一起提高!后面还会继续补充。——前言1.进程和线程 线程是指进程内的一个执行单元,也是进程内的可调度实体. 与进程的区别: (1)地址空间:进程内的一个执行单元;进程至少有一个线程;它们共享进程的地址空间
2016-06-09 16:00:15 426
转载 那些不能遗忘的知识点回顾——计算机网络系列(笔试面试高频题)
有那么一些零碎的小知识点,偶尔很迷惑,偶尔被忽略,偶然却发现它们很重要,也是各大笔试和面试高频出现考点。这段时间正好在温习这些,就整理在这里,一起学习一起提高!后面还会继续补充。——前言1.TCP的三次握手四次挥手 第一次握手:Client将标志位SYN置为1,随机产生一个值seq=J,并将该数据包发送给Server,Client进入SYN_SENT状态,等待Server
2016-06-09 15:53:32 668
转载 计算机网络面试常考知识点整理
有那么一些零碎的小知识点,偶尔很迷惑,偶尔被忽略,偶然却发现它们很重要,也是各大笔试和面试高频出现考点。这段时间正好在温习这些,就整理在这里,一起学习一起提高!后面还会继续补充。——前言1.TCP 的三次握手四次挥手第一次握手: Client 将标志位 SYN 置为 1 ,随机产生一个值 seq=J ,并将该数据包发送给 Server , Client 进入 SYN_SEN
2016-06-09 15:52:00 5374
转载 TCP拥塞控制机制
研究TCP的拥塞机制,不仅仅是想了解TCP如何的精巧,更多的是领悟其设计思想,即在一般情况下,我们该怎样处理问题。 一.拥塞的发生与其不可避免 拥塞发生的主要原因在于网络能够提供的资源不足以满足用户的需求,这些资源包括缓存空间、链路带宽容量和中间节点的处理能力。由于互联网的设计机制导致其缺乏“接纳控制”能力,因此在网络资源不足时不能限制用户数量,而只能靠降低服务质量来继续为用户服务,
2016-06-09 15:46:44 460
转载 TCP/IP协议三次握手与四次握手流程解析
TCP/IP协议三次握手与四次握手流程解析 一、TCP报文格式 TCP/IP协议的详细信息参看《TCP/IP协议详解》三卷本。下面是TCP报文格式图:图1 TCP报文格式 上图中有几个字段需要重点介绍下: (1)序号:Seq序号,占32位,用来标识从TCP源端向目的端发送的字节流,发起方发送数据时对此进行标记。 (2)确认序号:Ack序号,占32位,只有AC
2016-06-09 15:45:01 249
转载 C/C++数据对齐
为了避免混淆,做如下规定,以下代码若不加特殊说明都运行于32位平台,结构体的默认对齐值是8,各数据类型所占字节数分别为char占一个字节int占四个字节double占八个字节。两个例子请问下面的结构体大小是多少?struct Test{ char c ; int i ;};这个呢?struct Test1{ int i
2016-06-05 15:26:07 267
转载 C++标准里 string和wstring
在C++标准里定义了两个字符串string和wstring typedef basic_string string; typedef basic_string wstring; 前者string是常用类型,可以看作char[],其实这正是与string定义中的_Elem=char相一致。而wstring,使用的是wchar_t类型,这是宽字符
2016-06-05 12:40:18 565
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人