自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

翻译 K最近邻算法(KNN)

正如俗话说----近朱者赤,近墨者黑,想象一下我们的数据集里面有一半是“朱”,一半是“墨”,现在有了一个新数据点,我们怎么判断它属于哪一个分类?下面就引出了KNN的原理:新数据点离谁最近,就和谁属于同一类所以说KNN是非常简单的算法,也是新手入门机器学习的简单算法#导入数据集生成器from sklearn.datasets import make_blobs#导入KNN分...

2019-03-28 18:58:20 275

翻译 Data Wrangling: Join, Combine, and Reshape(数据加工:连接, 合并, 整形)

在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。 join:连接 combine:合并 reshape:整形 merge:归并 concatenate:串联 pivot:旋转 stack:堆叠Hierarchical Indexing(分层索引)Hierarchical Indexing是pandas中一个重要的特性,能让我们在一个轴(axis)上有多个index le...

2019-03-25 16:35:29 261

原创 贝叶斯算法

贝叶斯简介贝叶斯原来是英国的一个著名数学家,贝叶斯方法源于他生前为解决一个“逆向概率”的问题写的一篇文章。 贝叶斯算法概述贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 贝叶斯要解...

2019-02-18 18:23:29 330

原创 决策树算法学习笔记

决策树原理概述树模型决策树:从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归 树的组成根节点:第一个选择点非叶子节点与分支:中间过程叶子节点:最终的决策结果(没有后代的节点) 节点增加节点相当于在数据中切一刀节点越多越好吗? 决策树的训练与测试训练阶段:从给定的训练集构造出来一棵树(从...

2019-01-25 14:19:24 168

原创 Python实现逻辑回归与梯度下降策略

我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前申请人的历史数据,你可以用它作为逻辑回归的训练集,对于每一个训练例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。import pandas as pdimport numpy as np...

2019-01-23 12:38:07 778

原创 逻辑回归算法

逻辑回归原理推导目的:分类还是回归?(经典的二分类算法) 什么是回归:比如说我们有两类数据,各有50个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归。我们通过大量的数据找出这条线,并拟合出这条线的表达式,再有新数据,我们就以这条线为区分来实现分类。 机器学习算法选择:先逻辑回归再用复杂的,能简单还是用简单的 ...

2019-01-22 11:23:08 219

原创 梯度下降策略

梯度下降原理    直观解释:比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山...

2019-01-21 11:46:36 759

原创 线性回归算法原理推导

线性回归算法概述一个栗子    数据:工资和年龄(两个特征)      目标:预测银行会贷款给我多少钱(标签)      考虑:工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢(参数)通俗解释    x1,x2就是我们的两个特征(年龄,工资),Y是银行最终会借给我们多少钱        找到最合适的一条线(想象一个高维)来最好的拟合我们的数据点...

2019-01-18 13:52:51 262

原创 Python数据可视化库-Matplotlib——直方图散点图

经过两天的学习,个人发现Matplotlib库就是一个小工具,之后会跟数据分析有关系,如果对这个库感兴趣的同学,可以直接到Matplotlib官网看examples,里面有很多优秀的例子,官网地址:https://matplotlib.org/gallery/index.html import numpy as npfrom matplotlib import pylab as plt...

2019-01-17 16:48:13 522 1

原创 补充昨天数据可视化库-Matplotlib文章里"newCreateData.csv"的数据构造

import randomf = open("newCreateData.csv", "w")f.write("DATE" + "," + "VALUE" + "\n")for i in range(1948, 2018): # 获取年份for j in range(1, 12): # 获取月份if j == 2:for h in range(1, 28): # 获取日f.w

2019-01-17 09:35:39 105

原创 Python数据可视化库-Matplotlib——折线图绘制

# coding:utf-8import pandas as pdimport numpy as npfrom matplotlib import pylab as plt # 导入数据可视化库Matplotlib并重命名为plt plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axe...

2019-01-16 17:19:33 1204

原创 补充Pandas的Series结构

import pandas as pdfrom pandas import Series runbo = pd.read_csv("test.csv")runbo_test = runbo["Name"] # 获取csv里列名为Name的数据print(type(runbo_test)) # 打印列名为Name的结构类型print(runbo_test[0:5]) # 打印...

2019-01-16 17:00:43 143

原创 泰坦尼克号船员获救预测学习笔记

import numpy as npimport pandas as pd titanic_survival = pd.read_csv("train.csv")print(titanic_survival.head())print("********************************")age = titanic_survival["Age"]pri...

2019-01-16 10:02:43 640

原创 python数据分析处理库-Pandas

import pandas as pd # 导入pandas库,并重命名为pda = pd.read_csv("1.csv") # 读取csv文件print(type(a)) # 打印a的类型print(a.dtypes) # 打印csv文件里各字段类型print("-----------------------------------")print(a.head()) # 默认显...

2019-01-15 16:12:49 246 2

原创 Python科学计算库-Numpy

import numpynp = numpy.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]])print(np[:, 1]) # ":"表示所有的行,"1"表示第二列print(np[:, 0:2])print("------------------------------------------------")np1 = numpy.array([1, ...

2019-01-14 17:15:40 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除