qq_33231969-CSDN博客

原创 K-means算法

一、k-means算法流程： K-means是一种重要的无监督学习的算方法，也是聚类算法中的最常用的一种，算法的详细步骤如下：1、在分类前选定K的值，即我们希望将数据集经过聚类得到K个类别；2、从数据集中随机选择K个数据点作为质心（Centroid）；3、对数据集中的每个数据点中计算与这K个质心距离（一般选取欧式距离），数据集中每个样本点距离这K个质心中某个质心的距...

2018-11-19 16:51:25 2146

原创安利一波国产Linux系统—deepin

Deepin是一款国产的Linux操作系统，我感觉很好的贴合和windows系统的老用户的习惯，对于没有使用过Ubuntu等等操作系统的同学可以安装学习。该系统的深度商店可以直接下载安装用户在windows系统常用的软件，没有向Ubuntu等系统较为繁琐的操作。用户界面也做的不错。 Deepin官网链接：https://www.deepin.org/ Dee...

2018-11-07 20:30:06 545

原创逻辑回归（Logistic Regression）理解

首先，逻辑回归算法是做分类的算法，不是做回归的算法。https://blog.csdn.net/t46414704152abc/article/details/79574003和七月算法讲的逻辑回归都不错，本文主要讲讲我认为逻辑回归中关键的部分。1、sigmoid函数的选取逻辑回归函数的核心地方就是使用了sigmoid函数。在分类问题中，例如二分类问题，我们不仅仅想要知...

2018-11-04 17:06:03 296

原创 windows10 spark2.X python环境安装 pyspark

本人最近学习spark，用的是pyspark，在安装配置spark、pyspark遇到各种问题。总体推荐两个安装配置的博客，内容较好，依据这两篇博客配置的话不会有太大的问题，如果在配置的过程中遇到问题，百度都可以解决：@https://blog.csdn.net/weixin_38556445/article/details/78182264@https://blog....

2018-11-02 22:05:58 319

原创 KNN（k-NearestNeighbor）简介

1、 KNN算法的基本思想： KNN算法属于有监督的分类算法，其算法的核心思想是选取一K值，计算训练样本和某个样本之间的距离并从小到大进行排列（计算距离用欧式距离、曼哈顿距离。），在排序好的样本中学区K个样本，其中K个样本总所占比例最大的样本类作为带分类的样本的类别。2、KNN算法中的一些细节 2.1KNN中K值的选取 @K值较大可以减少学习的估计误差，但是...

2018-11-02 16:41:42 453

原创 K-近邻算法的Python实现（一）

1.Python的语言环境和参考的书籍下面给出的代码是基于Python2.7.9编写的（编译器推荐使用pycharm），Python到了3.0以后的版本语言有所改变，但是大体上没有太大的变化。我所给出的代码是引用《机器学习实战》中的代码，带对于一些书中代码没有标注的地方进行详细的标注。 2.使用Python实现算法打开Python编译器，创建KNN.py文件。在文件的

2017-05-13 11:06:52 744

原创开始Python机器学习（含资料）

1.Python机器学习的优势简洁是Python的一个最大的优势，即使你没有很好的编程基础，但是对于Python而言是很容易上手的。Python虽然简单，但却有惊人的功能，到目前而言Python已经有非常丰富的处理包供你使用。Python最近几年在编程语言的排名也是越来越高，特别是机器学习人工智能大火之后。MATLAB虽然是一个非常好的数学计算软件，但其为非开源的软件，成本较高，而且在和

2017-05-10 20:50:41 675

原创 K-近邻算法简介

1.K-近邻算法原理 K-近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论很成熟的机器学习算法之一。该算方法的工作原理：有一个样本的数据集，在机器学习中统称为训练样本集。在训练集中每个数据都有其标签，我们通过标签可以知道每个数据的所属分类。当我们输入一个没有标签的新数据后，如果这个数据在特征空间中的k个最相似(即特征空间中最邻近)的数据中的大多数属于某一个类

2017-05-10 20:06:37 419

qq_33231969的博客