无语_人生-CSDN博客

原创聚类-个人笔记

聚类是无监督学习的一种，目标是对无标记训练样本的学习来解释数据的内在性质及规律，为进一步的数据分析提供基础。聚类算法涉及的两个基本问题：性能度量和距离计算性能度量的指标可分为外部指标和内部指标，外部指标主要有JC系数、FM系数、Rand指数等，而内部指标主要有DB指数、Dunn指数等，此不再详细阐述。距离度量：闵科夫斯基距离：当P=2时就是熟悉的欧氏距离；P=1时称作曼哈顿距离。这里需要注意，闵科...

2018-05-15 17:18:15 343

原创集成学习-个人笔记

集成学习通过某种策略对单个学习器进行结合，通常可获得比单一学习器显著优越的泛化性能，因此在许多学习任务当中都应用了集成学习。本文先介绍集成学习的基本理论思想，再结合scikit-learn官方文档给出常见的几种集成学习算法的Python实现。集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。若集成中只包含同类型的学习器，这样的集成就是“同质”的，每一单个学习器称为“基学习器...

2018-04-26 16:16:14 438

原创朴素贝叶斯分类器--个人笔记

朴素贝叶斯分类器作为基于贝叶斯定理的监督学习算法，曾入选“数据挖掘十大算法”。本文结合个人学习笔记和scikit-learn中朴素贝叶斯算法的官方文档，总结朴素贝叶斯算法的基本思想原理和scikit-learn中三种类型的朴素贝叶斯分类器的适用范围，供以后学习使用。朴素贝叶斯分类算法的基本原理：最小化分类错误率的最优贝叶斯分类是使后验概率P（y|x）最大化，即：根据贝叶斯公式：朴素贝叶斯假设每个样...

2018-04-25 17:54:47 798

转载 SVM理解

本文转自：点击打开链接文章是从微信公众号看到的，个人觉得对于理解支持向量机以及与Logistic之间的联系有一定的帮助，所以转载备后续学习。1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候，老师要求交《统计学习理论》的报告，那时去网上下了一份入门教程，里面讲的很通俗，当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料，让我重新学习了一些SVM知识。我看很多正...

2018-04-25 10:07:41 160

原创数据分析实战的简单尝试--职位信息分析

近年来，“大数据”和“人工智能”一直是人们日常生活中热议的话题，而随着智能技术与科技的不断应用，AI领域未来的发展也被普遍看好，越来越多的企业也开始涉足AI。伴随AI发展也引发了一类相关职业的兴起--数据分析师。那么要想成为一名数据分析师必须具备什么样的技能，企业对数据分析师又有什么样的要求呢？为了解答这些问题（当然更多的是为了本人的实战练习），本人利用爬虫，根据关键字“数据分析”从拉钩网提取了北...

2018-04-14 16:22:56 591 1

原创 Apriori算法源代码解析

关于Apriori算法的原理介绍参考：点击打开链接点击打开链接算法主要包括两个步骤：1、频繁项集的寻找2、关联规则的产生核心公式：support(A⇒B)=P(A∪B)confidence(A⇒B)=P(B|A)=support(A∪B)support(A)先看看处理好的数据 Java PHP Python爬虫 Spark 数据分析机器学习0 1.0 1.0 1...

2018-03-29 17:41:09 2300 1

原创 map,lambda函数

Python中map,lambda函数的应用lambda其实就是一个简单的函数定义，类似于def()lambda 参数：函数体x=1b=lambda x:x+1print(b(x))输出结果：2map（函数，序列），map会对序列中的每一个元素执行函数，并返回一个新的序列如：def sqr(x): return x*x x=[1,2,3]y=list(map(sqr,x)) print...

2018-03-26 16:14:35 1565

原创基于BP人工神经网络模型预测课程销量的高低

人工神经网络理论的学习参考：点击打开链接点击打开链接初始数据：一、数据的加载和整理import pandas as pdaimport numpy as npyfile_name='lesson2.csv'dataf=pda.read_csv(file_name)x=dataf.iloc[:,1:5]#取2-4列的数据y=dataf.iloc[:,5:6]#类别数据for i in r...

2018-03-23 16:53:32 3720 1

原创 Python基于Kmeans算法实现文本聚类的简单练习

接触机器学习时间不长，也一直有兴趣研究这方面的算法。最近在学习Kmeans算法，但由于工作的原因无法接触到相关的项目实战。为了理清思路、熟悉代码，在参照了几篇机器学习大神的博文后，做了一个简单的Kmeans算法的简单练习。作为一枚机器学习的门外汉，对于文中的一些错误和不足，还望您多多包涵，也欢迎您的批评和建议（第一次发博客，有点语无伦次，见谅哈）。先说一下我的大致思路：1、利用爬虫进行文本数据的爬...

2018-03-19 17:02:48 18760 13

weixin_41276745的博客