机器学习
文章平均质量分 60
大号小白兔
One's life must be matter
展开
-
Apriori挖掘频繁模式,关联规则(附代码实现 java+mysql)
Apriori算法在数据挖掘中主要挖掘频繁模式和关联规则,这个算法比较简单,但是开销很大,需要扫描数据库。预备知识: 支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的原创 2015-08-11 11:59:09 · 4443 阅读 · 5 评论 -
ictclas分词系统的使用,java调用,附带连接mysql进行读写。
1.进入官网下载 ictclas2013下载包,目前更新到0416版,ictclas2013-Win-32-jni或者64位的。如果系统是32位的就下载32位的,如果是64位的系统,那就要看你安装的java虚拟机是32位还是64位。若是32为jdk,还是要下载使用32位的JNI,而且Eclipse也用32位的。2.准备文件 打开ictclas2013文件,需要的数据是:Data,Bin,Text原创 2015-08-23 21:40:30 · 1493 阅读 · 1 评论 -
Matlab聚类分析_层次聚类+kmeans聚类等
Matlab提供了两种方法进行聚类分析。一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法;另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类转载 2015-05-24 22:42:47 · 7082 阅读 · 0 评论 -
随机森林总结
1.随机森林原理介绍随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。简单来说,随机森林就是由多棵CART(Classification And Regression Tree)构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一转载 2015-05-14 10:33:45 · 1771 阅读 · 0 评论 -
机器学习基础知识
机器学习基础知识自从答应简二毛博士将自己的机器学习历程和心得分享给大家至今,转眼间半年已经过去了,感谢简博士分享和开源精神的鼓舞,这也正是本系列关于机器学习介绍博客的动力来源。之前有些网友,师弟们问我,学习机器学习怎么入手,从看什么书开始。这里说一下个人见解:如果你只愿意看一本书,那么推荐Bishop的PRML,全名Pattern Recognition and Machine转载 2015-05-24 13:24:23 · 1204 阅读 · 0 评论 -
层次聚类 java和matlab实现
层次聚类算法与之前所讲的顺序聚类有很大不同,它不再产生单一聚类,而是产生一个聚类层次。说白了就是一棵层次树。介绍层次聚类之前,要先介绍一个概念——嵌套聚类。讲的简单点,聚类的嵌套与程序的嵌套一样,一个聚类中R1包含了另一个R2,那这就是R2嵌套在R1中,或者说是R1嵌套了R2。具体说怎么算嵌套呢?聚类R1={{x1,x2},{x3},{x4,x5}嵌套在聚类R2={{x1,x2,x3},{x4,x转载 2015-05-25 10:04:35 · 5296 阅读 · 0 评论 -
matlab层次聚类 linkage
Z=linkage(Y)Z = 3.0000 4.0000 0.2228 2.0000 5.0000 0.5401 1.0000 7.0000 1.0267 6.0000 9.0000 1.0581 8.0000 10.0000 1.3717对于M个元素原创 2015-05-25 10:14:57 · 12158 阅读 · 7 评论 -
机器学习、数据挖掘书单,附下载地址
入门读物:深入浅出数据分析 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了 R 是大加分。难易程度:非常易。 啤酒与尿布 通过案例来说事情,而且是最经典的例子。难易程度:非常易。 数据之美 一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。 数学之美 这本书非常棒啦,入门读起来很不错! 下载地址:深入浅转载 2015-06-07 13:40:26 · 790 阅读 · 0 评论 -
HDFS文件的读写操作理论解析
刚刚接触Hadoop,对于里面的HDFS感觉思想就是分而治之再综合的过程,不过这个分布式文件系统还是蛮厉害的。现在介绍一下它的基本原理,通俗易懂。 一、HDFS的一些基本概念: 数据块(block):大文件会被分割成多个block进行存储,block大小默认为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。namenode:namenode负责管理文件目录、文件原创 2015-07-05 23:00:21 · 5066 阅读 · 0 评论 -
Hadoop集群配置中如何写入和读取数据?
本节和大家继续学习一下有关Hadoop集群性能优化中机架感知配置方面的内容,主要包括写入数据和读出数据两大部分,希望通过本节的介绍大家对Hadoop集群中机架感知配置有一定的认识。 Hadoop集群功能测试 以下是分别就配置了机架感知信息和没有配置机架感知信息的hadoopHDFS启动instance进行的数据上传时的测试结果。 写入数据 当没有配置机架信息时,所有的机器hadoop都默认在转载 2015-10-30 21:38:09 · 1358 阅读 · 3 评论 -
大数据挖掘技术之DM经典模型
实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 下面就是查询模型,该模型正在直销行业很受欢迎,并广泛用于其它领域。朴素贝叶斯模型是表查找模型中一种非常有用的泛化模型,通常表查询模型适用转载 2015-10-30 21:33:42 · 9434 阅读 · 0 评论 -
ODPS MapReduce入门
MapReduce 原理简介 以MapReduce中最经典的wordcount应用为例,来分析一下MapReduce的全过程。这里我们要统计文件中每个单词出现的次数。 Input就是我们要处理的原始数据,一共有3行。 Splitting步骤是分配任务,这里把任务分给3台机器同时处理,每台机器只负责处理一行的数据。 Mapping步骤就是这3台机器具体要做的事情。在这里每台机器要做的就是统计一转载 2015-10-21 15:13:55 · 3234 阅读 · 2 评论 -
深度学习史上最全总结(文末有福利)
深度学习(Deep Learning),这是一个在近几年火遍各个领域的词汇,似乎所有的算法只要跟它扯上关系,瞬间就显得高大上起来。但其实,从2006年Hinton在Science上的论文算起,深度学习发展至今才不到十年。 在这短短几年时间里,深度学习颠覆了语音识别、图像分类、文本理解等众多领域的算法设计思路,渐渐形成了一种从训练数据出发,经过一个端到端(end-to-end)的模型,然后直接输出得转载 2015-09-01 22:27:10 · 5412 阅读 · 2 评论 -
hadoop HDFS常用文件操作命令
命令基本格式:hadoop fs -cmd < args >1.lshadoop fs -ls /列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件2.puthadoop fs -put < local file > < hdfs file >hdfs file的父目录一定要存在,否则命令不会执行hadoop fs -put < lo转载 2017-04-01 19:02:22 · 2453 阅读 · 0 评论 -
强化学习概述--甄景贤
1、什么是强化学习(What is reinforcement learning?)Reinforcement learning 是机器学习里面的一个分支,特别善於控制一只能够在某个环境下 自主行动 的个体 (autonomous agent),透过和 环境 之间的互动,例如 sensory perception 和 rewards,而不断改进它的行为 。听到强化学习,你脑里应该浮现一只曱甴那样的小转载 2017-07-17 17:38:48 · 1532 阅读 · 1 评论 -
逻辑回归的python实现
github上有一些开源的,在开源的基础上进行了些需修改。 本文数据及其代码下载页: http://download.csdn.net/download/a1b2c3d4123456/10015925#coding=utf-8import mathimport numpy as npimport pandas as pdfrom sklearn import preprocessingf原创 2017-10-11 14:56:32 · 1455 阅读 · 0 评论 -
xgboost 算法原理
1、xgboost是什么全称:eXtreme Gradient Boosting 作者:陈天奇(华盛顿大学博士) 基础:GBDT 所属:boosting迭代型、树类算法。 适用范围:分类、回归 优点:速度快、效果好、能处理大规模数据、支持多种语言、支 持自定义损失函数等等。 缺点:发布时间短(2014),工业领域应用较少,待检验2、基础知识,GBDTxgboost原创 2016-10-18 15:17:00 · 73010 阅读 · 1 评论 -
python 去除停用词 结巴分词
#coding:gbkimport jieba#stopwords = {}.fromkeys([ line.rstrip() for line in open('stopword.txt') ])stopwords = {}.fromkeys(['的', '附近'])segs = jieba.cut('北京附近的租房', cut_all=False)final = ''for seg转载 2016-10-27 10:42:35 · 22375 阅读 · 2 评论 -
推荐系统的那点事
文章转自:http://www.admin10000.com/document/4995.html 推荐系统的误区 回想起来,我也算是国内接触推荐系统较早的人之一了,最近和人聊天,觉得不少人对推荐系统有所误解,以为需要多么高大上的算法才能搭建起来的,我只想说我经常说的那句话【不是这样的】,所以有了这篇文章。 第一次接触【推荐系统】是在两年前在某高校的互联网信息处理实验室的时候,那时候,【机器学转载 2015-07-21 17:12:20 · 563 阅读 · 0 评论 -
关于推荐系统中的特征工程
本文转载自:http://blog.jobbole.com/74951/在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞feature工作繁琐又不重要不如多堆几个模型,想入手实际问题的小朋友又不知道怎么提取feature来建模型。我就用个性化推荐系统做个例子,简单说说特征工程在实际的问题里是怎么做。定义特征转载 2015-07-21 17:00:00 · 520 阅读 · 0 评论 -
python --网页爬虫,文本处理,科学计算,机器学习,数据挖掘资料+附带工具包下载
Python网页爬虫工具:Scrapy Scrapy, a fast high-level screen scraping and web crawling framework for Python. 不少同学肯定有耳闻,依靠Scrapy抓取了不少课程图谱,有关的文章有很多,大牛pluskid以前写过一篇文章:《Scrapy 轻松定制网络爬虫》,久经考验。 官网:http://scrapy.转载 2015-11-13 13:52:41 · 1555 阅读 · 0 评论 -
机器学习分支一览
机器学习机器分支一览:原创 2016-04-18 21:31:25 · 3664 阅读 · 0 评论 -
机器学习面试题---百度2016春招
1、自我介绍。问你的专业和方向。2、说一下你残疾ade数据挖掘项目或者比赛。简述题目、数据、目的、评价指标、所用算法、遇到的问题、如何解决。3、简述SVM过程,举几个常见的核函数,说说其用途。举例说明什么事支持向量。4、说一下k-means过程。关于k的选择有什么好的看法?5、举个你熟悉的分类算法,简述其原理和过程。6、信息增益、信息增益率、基尼指数各是什么?信息增益率比和信息增益的区别是什么?7、原创 2016-03-25 12:50:42 · 2168 阅读 · 0 评论 -
机器学习笔试题目----网易2016春招
2016年3月23日参加了网易机器学习岗的笔试,然后又被鄙视了。因为不允许截屏和拍照,只凭记忆记录了一些问题。1、常见的生成式模型和判别式模型有哪些? 生成式模型:HMM、朴素贝叶斯 判别式模型:svm、最大熵模型、决策树、神经网络、条件随机场。2、Android 的intent 都可以传递那些数据类型? 简单或基本数据类型、传递一个Bundle、传递Serializable对象、Parcel原创 2016-03-25 12:30:26 · 11572 阅读 · 7 评论 -
数据挖掘算法---KNN(附python代码)
首先本文只是介绍一下算法的思想以及里面涉及的关键的步骤,至于其所以然,大家可以看些专业的讲义或者视频,在此强烈推荐July的文章,虽然对于一些基础不好的人来说看完july的一篇长文是很费劲的,但是此人有传道精神,解惑品质,日后定成大师。希望以后大家多多支持。KNN中文名字是K近邻,可以用于分类和回归,下面以分类为例进行讲解:算法思想:基于最相似的算法思想,类似协同过滤。比如说已知了训练集的一些数据的原创 2016-05-15 21:56:11 · 2317 阅读 · 0 评论 -
xgboost在window安装----免编译步骤
首先按照常规的流程是需要对xgboost进行编译,然后再安装的。但是有一个问题就是很多人不会编译,有的是没有编译环境,于是为了免去编译,我在这里提供了编译好的文件,直接下载后安装就可以了。1。下载文件 地址:http://download.csdn.net/detail/a1b2c3d4123456/95376392、解压缩到python的= …\python2.7\Lib\site-packag原创 2016-06-01 13:26:04 · 3250 阅读 · 13 评论 -
各种分类算法优缺点比较
文章转自:http://bbs.pinggu.org/thread-2604496-1-1.html1决策树(Decision Trees)的优缺点 决策树的优点: 一、 决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 二、 对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白转载 2016-06-05 16:06:30 · 2202 阅读 · 0 评论 -
机器学习---白话Logistic回归
1、Logisti回归的基本概念首先logistic回归是一个分类算法,大家不要被名称所诱惑,这一点非常重要!然后logistic回归属于是利用了一个叫做sigmoid函数的映射,简称S函数,S函数的定义如下: 函数图像是这样的: 分类的模型使用的是将上面的的S函数的分母的e的幂次换掉。然后直接判断原创 2016-06-28 16:16:36 · 1346 阅读 · 0 评论 -
余弦距离、欧氏距离和杰卡德相似性度量的对比分析
1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b转载 2016-07-22 16:54:59 · 945 阅读 · 0 评论 -
数据挖掘与数据分析
数据挖掘与数据分析一、数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息,二者有很多联系,但是二者的侧重点和实现手法有所区分。 数据挖掘和数据分析的不同之处: 1、在应用工具上,数据挖掘一般要通过自己的编程来实现需要掌握编程语言;而数据分析更多的是借助现有的分析工具进行。 2、在行业知识方面,数据分析要求对所从事的行业有比较深的了解和理解,并且能够将数据与自原创 2016-07-05 17:35:03 · 29334 阅读 · 5 评论 -
集成学习算法总结----Boosting和Bagging
1、集成学习概述1.1 集成学习概述集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。1.2 集成学习的主要思想 集成学习的主要思想是利用一定的手段学习出多个分类器,而且这多个分类器要求原创 2016-07-05 21:02:59 · 21199 阅读 · 0 评论 -
机器学习----朴素贝叶斯分类算法
朴素贝叶斯的基本概念和定理朴素贝叶斯假设数据是服从条件独立性假设的,有了这一个严格的限制,就可以求联合概率分布,算法中最重要的公式就是条件概率, 设输入空间是n维向量的集合,取其中m个样本做训练数据集,表示为S={S_1,S_2,…,S_m},其中每个样本S_i都是一个n维向量{x_1,x_2,…,x_n};输出空间是类标记的集合,表示为Y={C_1,C_2,…,C_k},取自输入空间的每个样本S原创 2016-06-21 17:23:11 · 1085 阅读 · 0 评论 -
梯度下降小结
梯度与最优化数学上的梯度是描述一个曲线或曲面沿着某一方向的变化的情况。计算方法就是求导数。 在机器学习领域为什么要使用梯度呢? 首先这个问题要追溯到最优化的问题上面,我们在求解一个拟合函数或者求解一个类别判别函数的过程中,会面临损失函数,以及如何让这个损失函数的问题。所以梯度下降就是让损失函数最小的过程最短。可以把损失函数看成是一个超平面,沿着各个方面的梯度下降就是考察的各个特征的变化。还有一点原创 2016-08-01 15:36:47 · 879 阅读 · 0 评论 -
机器学习和数据挖掘100问
前言:虽然说我的研究方向是数据挖掘,但是一直以来对整个机器学习和数据挖掘的东西没较为清晰的认识,估计有很多小白和新手和我有类似的问题吧,借此校招之际,对机器学习和数据挖掘领域的知识进行一定的汇总,这一篇主要提出问题,因为其中的每一个问题可能会需要很大精力去解答和理解,所以将会在后续询问高人或者查阅书籍论文之后将答案进行逐一汇总。问题按照模块进行提出,长期更新,望各位多多指点。**一、基本概念**原创 2016-08-08 14:07:35 · 1402 阅读 · 0 评论 -
Truncated Gradient --截断梯度
Truncated Gradient --截断梯度简介简单截断法L1正则化法截断梯度法(Truncated Gradient)简介最近接触了大规模机器学习,在进行模型训练的时候采用的是广义线性模型,由于超高维度(十亿级别)导致训练的模型最后超级大,为了上线模型服务,最后的模型不能太大,需要进行模型的剪枝,于是就涉及到了梯度截断,用以减少模型的最终的权重的数量。同时梯度截断也可以减少不重要特征,...原创 2019-05-31 20:44:48 · 3823 阅读 · 0 评论