数据挖掘
文章平均质量分 66
KeeJee
机器学习,数据挖掘
展开
-
因子分解机
https://blog.csdn.net/songbinxu/article/details/79662665原创 2018-06-19 11:43:12 · 893 阅读 · 0 评论 -
数据挖掘 - 低秩矩阵恢复与非负矩阵分解
低秩矩阵恢复与非负矩阵分解原创 2017-09-05 20:32:02 · 3041 阅读 · 1 评论 -
机器学习 - 朴素贝叶斯
朴素贝叶斯原创 2017-07-08 22:11:56 · 517 阅读 · 0 评论 -
数据挖掘 - xgboost
1. 原理2. 调参参考文献https://zhuanlan.zhihu.com/p/25308120原创 2017-08-27 15:30:47 · 574 阅读 · 0 评论 -
机器学习 - 线性回归
1. 普通线性回归2. ridge3. lasso原创 2017-07-24 11:25:18 · 3069 阅读 · 0 评论 -
机器学习 - 集成学习
1. baggingbagging的核心思想: bootstrap sample自主采样;即从m个样本的数据集中有放回的随机采样n(n ≤ m)个样本;这样重复k次,将得到k个不同的数据集作为训练数据。随机森林:随机森林是bagging的经典应用;随机森林相对于bagging更加高级,不但可以对样本进行bootstrap sampling,而且可以对特征进行bootstrap;从而原创 2017-07-21 21:19:12 · 5636 阅读 · 0 评论 -
机器学习 - Kmeans及其变体
1. K-means2. 二分K-means原创 2017-07-28 15:06:02 · 3638 阅读 · 2 评论 -
机器学习 - DBSCAN算法
DBSCAN算法原创 2017-07-28 16:09:26 · 1311 阅读 · 0 评论 -
机器学习 - 聚类算法
聚类算法属于无监督学习范畴,为了便于记忆,简单的将韩家炜《数据挖掘:概念与技术》简单的总结为四种:基于距离,基于密度,基于层次,基于网格。1. 基于距离2. 基于密度3. 基于层次4. 基于网格参考书籍:《机器学习》 - 周志华《机器学习实战》- Peter Harrington《数据挖掘:概念与技术》- 韩家炜原创 2017-07-25 11:27:35 · 1062 阅读 · 0 评论 -
数据挖掘 - 集体智慧编程 - 寻找独立特征
集体智慧编程第十章寻找独立特征原创 2017-09-14 10:53:47 · 513 阅读 · 0 评论 -
机器学习 - 决策树实现
决策树原理篇ID3算法:http://blog.csdn.net/zk_j1994/article/details/74066406C4.5算法:http://blog.csdn.net/zk_j1994/article/details/74560278CART算法:http://blog.csdn.net/zk_j1994/article/details/74606412原创 2017-09-14 10:50:56 · 526 阅读 · 0 评论 -
hash trick
https://en.wikipedia.org/wiki/Feature_hashing function hashing_vectorizer(features : array of string, N : integer): x = new vector[N] for f in features: h = hash(f) x[h % N...原创 2018-06-26 10:37:52 · 467 阅读 · 0 评论 -
特征工程
云脑科技机器学习训练营11月13日正式开始啦!量子位作为合作媒体独家为大家分享课程干货内容。 本期内容简介主题:亿级用户电商平台推荐系统挑战主讲人:张本宇(云脑科技创始人&CEO)从事人工智能十八年的老兵,曾就职于微软亚洲研究院、Google和Facebook,在AI方面手握了150项美国专利,在国际一流期刊及会议上发表的45篇论文已被引用超过6000次,创新工场最新研究《AI领域,中国人...转载 2018-06-26 09:51:02 · 812 阅读 · 0 评论 -
DeepFM
论文: https://arxiv.org/pdf/1606.07792.pdfdeepfm在kaggle竞赛中的应用: https://github.com/ChenglongChen/tensorflow-DeepFM/tree/master/examplehttps://www.jianshu.com/p/6f1c2643d31b原创 2018-06-25 16:28:23 · 1408 阅读 · 0 评论 -
GBDT+LR
利用GBDT对特征进行变换https://wenku.baidu.com/view/7319fc2c960590c69ec376c0.htmlhttps://blog.csdn.net/shine19930820/article/details/71713680/http://scikit-learn.org/stable/auto_examples/ensemble/plot_feature_t...原创 2018-06-22 14:44:06 · 538 阅读 · 0 评论 -
一文看懂mapreduce
http://blog.csdn.net/universe_ant/article/details/52624867原创 2018-03-13 18:37:45 · 398 阅读 · 0 评论 -
N-gram算法
最近在做谷歌text normlization的时候,俩队友用到了这个算法,搞得我一脸懵逼。整体来说,还是一种字符串模糊匹配算法吧,多用来衡量字符串之间的相似度。字符串的精确匹配算法KMP算法之前也提到过。N-Gram(有时也称为N元模型)是自然语言处理中一个非常重要的概念,通常在NLP中,人们基于一定的语料库,可以利用N-Gram来预计或者评估一个句子是否合理。另外一方面,N转载 2017-11-13 13:26:20 · 8147 阅读 · 0 评论 -
Sklearn中LabelEncoder与OneHotEncoder
1. LabelEncoder()#简单来说 LabelEncoder 是对不连续的数字或者文本进行编号from sklearn.preprocessing import LabelEncoderle = LabelEncoder()le.fit([1,5,67,100])le.transform([1,1,100,67,5])array([0,0,3,2,1])2. On原创 2017-11-10 09:50:02 · 4001 阅读 · 1 评论 -
xgboost参数详解
XGBoost参数在运行XGboost之前,必须设置三种类型成熟:general parameters,booster parameters和task parameters:General parameters:参数控制在提升(boosting)过程中使用哪种booster,常用的booster有树模型(tree)和线性模型(linear model)。Booster parame原创 2017-11-01 16:30:23 · 1483 阅读 · 0 评论 -
文本挖掘 - 文档模型
文档模型,主要针对的是如何把文档数字化、向量化,最终可以利用这些文档来建立模型。当前文档模型主要包括三类:布尔模型,向量空间模型,概率模型。1. 布尔模型每个词在文档中出现则记为1,否则记为0。这样就可以将每一篇文章都转化为向量,这种方法非常简单易懂,但是会丢失很多重要信息,比如词组出现的次数。因为排除停用词(stop words)以外,一个单词在文章中出现次数较多,那么它相对来说也更重要原创 2017-10-24 09:43:32 · 1501 阅读 · 0 评论 -
文本挖掘 - 分词
分词即对词语进行划分。分词的基本方法包括:最大匹配法,最大概率分词法,最短路径分词法分词的难点:分词歧义,未登录词识别(冷启动)1. 最大匹配法最大匹配法实际上是一种贪心算法,它同时还利用现实中人们使用的词语长度都是在一个比较固定的范围内。利用这个长度的限制来逐步贪心。1.1 正向最大匹配算法从左到右截取词组并判断是否为一个词语。s: 待分的句子te原创 2017-10-18 21:02:54 · 1401 阅读 · 0 评论 -
准确率与召回率
1、两个最常见的衡量指标是“准确率(precision)”(你给出的结果有多少是正确的)和“召回率(recall)”(正确的结果有多少被你给出了)这两个通常是此消彼长的(trade off),很难兼得。很多时候用参数来控制,通过修改参数则能得出一个准确率和召回率的曲线(ROC),这条曲线与x和y轴围成的面积就是AUC(ROC Area)。AUC可以综合衡量一个预测模型的好坏,这一个指标综合了转载 2017-11-08 14:34:10 · 51653 阅读 · 5 评论 -
文本挖掘 - 目录
开一个文本挖掘的专题,主要内容来自北京大学杨建武老师《文本挖掘》课程PPT。原创 2017-10-18 21:01:41 · 639 阅读 · 0 评论 -
机器学习 - meanshift算法
meanshift算法原创 2017-07-28 16:01:52 · 1297 阅读 · 0 评论 -
数据挖掘 - PageRank
PageRank原创 2017-08-12 18:45:31 · 463 阅读 · 0 评论 -
机器学习 - SVD分解
在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,觉得分析的特别好,把矩阵和空间关系对应了起来。本文就参考了该文并结合矩阵的相关知识把SVD原理梳理一下。 SVD不仅是一个数学问题,在工程应转载 2017-05-23 02:38:54 · 631 阅读 · 0 评论 -
机器学习 - xgboost调参
xgboost入门与实战(原理篇)前言:xgboost是大规模并行boosted tree的工具,它是目前最快最好的开源boosted tree工具包,比常见的工具包快10倍以上。在数据科学方面,有大量kaggle选手选用它进行数据挖掘比赛,其中包括两个以上kaggle比赛的夺冠方案。在工业界规模方面,xgboost的分布式版本有广泛的可移植性,支持在YARN, MPI, Su转载 2017-05-10 18:49:35 · 3037 阅读 · 0 评论 -
机器学习 - 奇异值分解(SVD)
【简化数据】奇异值分解(SVD)转自:http://blog.csdn.NET/u012162613/article/details/422142051、简介奇异值分解(singular Value Decomposition),简称SVD,线性代数中矩阵分解的方法。假如有一个矩阵A,对它进行奇异值分解,可以得到三个矩阵:这三个矩转载 2017-05-14 15:04:28 · 532 阅读 · 0 评论 -
机器学习 - xgboost参数详解
原文见:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/这篇文章按照原文的分节,共分为三个部分,其中本章介绍第一部分。 1、简介与XGboost2、参数理解3、参数调优关于XG转载 2017-05-08 17:11:27 · 1795 阅读 · 0 评论 -
机器学习 - 数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不转载 2017-05-07 22:17:43 · 1147 阅读 · 0 评论 -
数据挖掘 - 词集模型 & 词袋模型
词集模型:单词构成的集合,每个单词只出现一次。词袋模型:把每一个单词都进行统计,同时计算每个单词出现的次数。原创 2017-07-08 09:27:54 · 4461 阅读 · 0 评论 -
机器学习 - 分类效果评估
1. 混淆矩阵(confusion matrix)2. 精确度(precision)3. 召回率(recall)4. 准确率(accuracy)5. F得分(F-score)6. ROC曲线(ROC curve)7. AUC面积8. lift曲线(lift Curve)9. KS曲线(ks curve)原创 2017-07-21 22:43:48 · 710 阅读 · 0 评论 -
机器学习 - logistic回归
统计机器学习有两种常见的机器学习算法:logistic回归和SVM,这两种算法都涉及到优化问题,是最重要的两种机器学习算法。原创 2017-07-10 21:08:12 · 1107 阅读 · 0 评论 -
机器学习 - sklearn算法选择图
原创 2017-07-29 19:11:01 · 3657 阅读 · 0 评论 -
机器学习 - 决策树CART算法
决策树算法包括ID3,C4.5,CART。这里的CART:classification and regression tree.CART的本质是对特征空间进行二元分割,即CART生成的树是一颗二叉树,并能对标称属性与数值型属性进行分割。1. CART综述 树模型2. CART分类3. CART回归原创 2017-07-06 22:15:34 · 673 阅读 · 0 评论 -
机器学习 - 决策树C4.5算法
基于树的模型最简单的是ID3算法,ID3算法有两大特点:1)节点分支时,使用信息增益计算最合适的属性作为当前节点的划分属性。2)只能处理标称性属性。假设按照属性A对数据集D进行划分,划分之后生成N个数据集D1,D2...,则属性A的信息增益公式为:显然若一个属性取值较多,那么其熵En(D)相对就更大,gain(A)也就越大。1. 信息增益率C4.5为了克原创 2017-07-06 16:09:01 · 2037 阅读 · 0 评论 -
pandas修改DataFrame列名
Pandas中DataFrame修改列名在做数据挖掘的时候,想改一个DataFrame的column名称,所以就查了一下,总结如下: 数据如下:>>>import pandas as pd>>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})>>> a A B C0 1 4 71 2 5转载 2017-05-05 23:08:24 · 77775 阅读 · 1 评论 -
数据挖掘 - TF-IDF(-)
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通转载 2017-06-11 10:56:01 · 643 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子A:我喜欢看电视,不喜欢看转载 2017-06-11 10:57:56 · 383 阅读 · 0 评论 -
机器学习 - GMM高斯混合模型
高斯混合模型原创 2017-07-28 16:00:10 · 2564 阅读 · 0 评论