数据挖掘
baoFeng_Li
我想捉住夏日荧光,想在内心铸就铮铮铁骨
展开
-
基于Aprion算法的电影推荐
前言: 最近在参加比赛,选了推荐系统的赛题。接触到了各种推荐系统的算法,学习了许多大神的论文。非常感谢他们的科研,让我们能更注重于应用。这篇文章权当做个引子,后续会补充我比赛的具体。知识储备: Apriori算法可以说是经典的亲和性分析算法。它只从数据集中频繁出现的商品中选取共同出 现的商品组成频繁项集(frequent itemset),避免了上述复杂度呈指数级增长的问题。一...原创 2018-03-16 21:17:03 · 4436 阅读 · 1 评论 -
回归算法与偏差方差的平衡
前言: 本篇文章基于《机器学习实战》第八章回归部分,加上了自己的理解。回归算法与偏差方差的平衡一、标准线性回归标准回归函数和数据导入函数from numpy import *def loadDataSet(fileName): numFeat = len(open(fileName).readline().split('\t')) - 1 dataMat...原创 2018-08-08 10:54:07 · 851 阅读 · 0 评论 -
支持向量机的代码实现
前言: 本篇文章主要实现了《机器学习实战》的支持向量机部分,我在代码中也尽量描述了对应公式的哪些变量。我建议搭配《统计学习方法》进行实战,下面这篇博文对于公式推导也是很不错的。 https://blog.csdn.net/u011067360/article/details/26503719另外本篇依赖于jupyter notebook。故在代码后面会出现相应的结果。正文:...原创 2018-08-01 21:03:10 · 4969 阅读 · 1 评论 -
提升方法之AdaBoost算法
利用AdaBoost元算法提高分类性能生成简单数据集def loadSimpleData(): dataMat = matrix([[1.,2.1], [2.,1.1], [1.3,1.], [1.,1.], [...原创 2018-08-05 22:27:00 · 266 阅读 · 0 评论 -
机器学习实战——朴素贝叶斯分类
准备数据:从文本中构建词向量前期测试函数用的数据def loadDataSet(): '''创建一些实验样本''' postingList = [['my','dog','has','flea','problems','help','please'], ['maybe','not','take','him','to','dog','p...原创 2018-06-23 18:09:23 · 1089 阅读 · 0 评论 -
KNN算法知识集
数学知识: 李航《统计学习方法》,叙述了K邻近算法,K邻近模型和它的三要素(距离度量、K值、分类决策规则),然后讲解了算法实现的数据结构——kd树,和基于这个树的搜索kd树算法。一些数学细节的补充: https://www.cnblogs.com/eyeszjwang/articles/2429382.html 讲解了Kd树的原理、例子和伪代码。在python上的实现: https...原创 2018-06-08 10:29:51 · 311 阅读 · 0 评论 -
Python数据挖掘之用图挖掘同样喜欢梅西的的人
前言: 本次同样在twitter上进行数据挖掘,主题是构建图,计算相似度,找到同样喜欢梅西的人,之后可以进行好友推荐,或者用户建群等。 编辑工具:anaconda 的jupyter notebook,所以会直接在代码后面跟上输出。 数据集:如果不想麻烦的弄数据的话,可以跳过下面获取数据步骤,直接使用文末数据,导入即可。获取Twitter好友数据写入授权令牌import tw...原创 2018-05-29 22:55:27 · 1290 阅读 · 0 评论 -
使用朴素贝叶斯进行社会媒体挖掘之推特
前言: 本文参考《python数据挖掘入门与实践》第六章,进行twiitter社会媒体挖掘。学完后感觉对社会媒体挖掘领域很有兴趣,往后会深入研究。正文:下载新的Twitter语料授权令牌信息获取网址:https://apps.twitter.com/ 具体操作可google。 以下XXXX为需填入的信息,如果不想自己下载可以在文末网盘找到我的数据,跳过此步骤。导入twitte...原创 2018-05-25 12:39:36 · 1745 阅读 · 1 评论 -
特征工程——用转换器抽取特征
用pandas加载数据集文件adult.dataimport osimport pandas as pddata_folder = "E:\DataMining\Project\dataming_with_python\Adult"adult_filename = os.path.join(data_folder,"adult.data")adult = pd.read_csv(adult_fi...原创 2018-05-18 11:01:58 · 644 阅读 · 0 评论 -
决策树学习之概念理解和代码实现
前言: 在学习《python数据挖掘入门与实践》的决策树球队预测后,为了更好的了解决策树学习,我又阅读了李航老师的《统计学习方法》决策树章节内容。这本书被许多大神极力推荐,我在阅读后也发现确实不负盛名。我将在这做个小结,希望能够起到引导作用。什么是决策树? 决策树是一种基本的分类和回归方法,这里主要讨论分类决策树。举个例子,你和一个女生能不能在一起是个分类问题,它包括能在一起与不能在一起。...原创 2018-03-05 22:32:39 · 440 阅读 · 0 评论 -
探索数据之自相关图分析(一)
前言: 作为探索数据的第一部分,本文先给出时间序列,自相关图,平稳性检验等概念。后续补充相应的python代码。该篇文章主要摘自王燕的《应用时间序列分析》,有兴趣深入了解的读者可参照这本书。正文:时间序列的定义:拿到一组观察值序列之后,我们首先要对他的平稳性和纯随机性进行检验,这也叫做序列的预处理,根据检验的结果我们会采用不同的分析方法,也会用对应的不同模型。描述时间序列的特征统...原创 2018-11-27 00:05:24 · 27332 阅读 · 3 评论