- 博客(9)
- 收藏
- 关注
原创 聚类-个人笔记
聚类是无监督学习的一种,目标是对无标记训练样本的学习来解释数据的内在性质及规律,为进一步的数据分析提供基础。聚类算法涉及的两个基本问题:性能度量和距离计算性能度量的指标可分为外部指标和内部指标,外部指标主要有JC系数、FM系数、Rand指数等,而内部指标主要有DB指数、Dunn指数等,此不再详细阐述。距离度量:闵科夫斯基距离:当P=2时就是熟悉的欧氏距离;P=1时称作曼哈顿距离。这里需要注意,闵科...
2018-05-15 17:18:15
343
原创 集成学习-个人笔记
集成学习通过某种策略对单个学习器进行结合,通常可获得比单一学习器显著优越的泛化性能,因此在许多学习任务当中都应用了集成学习。本文先介绍集成学习的基本理论思想,再结合scikit-learn官方文档给出常见的几种集成学习算法的Python实现。集成学习的一般结构:先产生一组“个体学习器”,再用某种策略将它们结合起来。若集成中只包含同类型的学习器,这样的集成就是“同质”的,每一单个学习器称为“基学习器...
2018-04-26 16:16:14
438
原创 朴素贝叶斯分类器--个人笔记
朴素贝叶斯分类器作为基于贝叶斯定理的监督学习算法,曾入选“数据挖掘十大算法”。本文结合个人学习笔记和scikit-learn中朴素贝叶斯算法的官方文档,总结朴素贝叶斯算法的基本思想原理和scikit-learn中三种类型的朴素贝叶斯分类器的适用范围,供以后学习使用。朴素贝叶斯分类算法的基本原理:最小化分类错误率的最优贝叶斯分类是使后验概率P(y|x)最大化,即:根据贝叶斯公式:朴素贝叶斯假设每个样...
2018-04-25 17:54:47
798
转载 SVM理解
本文转自:点击打开链接文章是从微信公众号看到的,个人觉得对于理解支持向量机以及与Logistic之间的联系有一定的帮助,所以转载备后续学习。1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正...
2018-04-25 10:07:41
160
原创 数据分析实战的简单尝试--职位信息分析
近年来,“大数据”和“人工智能”一直是人们日常生活中热议的话题,而随着智能技术与科技的不断应用,AI领域未来的发展也被普遍看好,越来越多的企业也开始涉足AI。伴随AI发展也引发了一类相关职业的兴起--数据分析师。那么要想成为一名数据分析师必须具备什么样的技能,企业对数据分析师又有什么样的要求呢?为了解答这些问题(当然更多的是为了本人的实战练习),本人利用爬虫,根据关键字“数据分析”从拉钩网提取了北...
2018-04-14 16:22:56
591
1
原创 Apriori算法源代码解析
关于Apriori算法的原理介绍参考:点击打开链接点击打开链接算法主要包括两个步骤:1、频繁项集的寻找2、关联规则的产生核心公式:support(A⇒B)=P(A∪B)confidence(A⇒B)=P(B|A)=support(A∪B)support(A)先看看处理好的数据 Java PHP Python爬虫 Spark 数据分析 机器学习0 1.0 1.0 1...
2018-03-29 17:41:09
2300
1
原创 map,lambda函数
Python中map,lambda函数的应用lambda其实就是一个简单的函数定义,类似于def()lambda 参数:函数体x=1b=lambda x:x+1print(b(x))输出结果:2map(函数,序列),map会对序列中的每一个元素执行函数,并返回一个新的序列如:def sqr(x): return x*x x=[1,2,3]y=list(map(sqr,x)) print...
2018-03-26 16:14:35
1565
原创 基于BP人工神经网络模型预测课程销量的高低
人工神经网络理论的学习参考:点击打开链接点击打开链接初始数据:一、数据的加载和整理import pandas as pdaimport numpy as npyfile_name='lesson2.csv'dataf=pda.read_csv(file_name)x=dataf.iloc[:,1:5]#取2-4列的数据y=dataf.iloc[:,5:6]#类别数据for i in r...
2018-03-23 16:53:32
3720
1
原创 Python基于Kmeans算法实现文本聚类的简单练习
接触机器学习时间不长,也一直有兴趣研究这方面的算法。最近在学习Kmeans算法,但由于工作的原因无法接触到相关的项目实战。为了理清思路、熟悉代码,在参照了几篇机器学习大神的博文后,做了一个简单的Kmeans算法的简单练习。作为一枚机器学习的门外汉,对于文中的一些错误和不足,还望您多多包涵,也欢迎您的批评和建议(第一次发博客,有点语无伦次,见谅哈)。先说一下我的大致思路:1、利用爬虫进行文本数据的爬...
2018-03-19 17:02:48
18760
13
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人