基础学习
python数据分析机器学习爱好者
即将毕业的大学生,比较喜欢数据分析与机器学习,希望有共同兴趣的小伙伴可以一起交流学习
展开
-
Python数据可视化库-Matplotlib——直方图散点图
经过两天的学习,个人发现Matplotlib库就是一个小工具,之后会跟数据分析有关系,如果对这个库感兴趣的同学,可以直接到Matplotlib官网看examples,里面有很多优秀的例子,官网地址:https://matplotlib.org/gallery/index.html import numpy as np from matplotlib import pylab as plt...原创 2019-01-17 16:48:13 · 517 阅读 · 1 评论 -
Data Wrangling: Join, Combine, and Reshape(数据加工:连接, 合并, 整形)
在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。 join:连接 combine:合并 reshape:整形 merge:归并 concatenate:串联 pivot:旋转 stack:堆叠 Hierarchical Indexing(分层索引) Hierarchical Indexing是pandas中一个重要的特性,能让我们在一个轴(axis)上有多个index le...翻译 2019-03-25 16:35:29 · 260 阅读 · 0 评论 -
贝叶斯算法
贝叶斯简介 贝叶斯原来是英国的一个著名数学家,贝叶斯方法源于他生前为解决一个“逆向概率”的问题写的一篇文章。 贝叶斯算法概述 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 贝叶斯要解...原创 2019-02-18 18:23:29 · 327 阅读 · 0 评论 -
Python实现逻辑回归与梯度下降策略
我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学的管理员,你想根据两次考试的结果来决定每个申请人的录取机会。你有以前申请人的历史数据,你可以用它作为逻辑回归的训练集,对于每一个训练例子,你有两个考试的申请人的分数和录取决定。为了做到这一点,我们将建立一个分类模型,根据考试成绩估计入学概率。 import pandas as pd import numpy as np ...原创 2019-01-23 12:38:07 · 773 阅读 · 0 评论 -
补充昨天数据可视化库-Matplotlib文章里"newCreateData.csv"的数据构造
import random f = open("newCreateData.csv", "w") f.write("DATE" + "," + "VALUE" + "\n") for i in range(1948, 2018): # 获取年份 for j in range(1, 12): # 获取月份 if j == 2: for h in range(1, 28): # 获取日 f.w原创 2019-01-17 09:35:39 · 104 阅读 · 0 评论 -
Python数据可视化库-Matplotlib——折线图绘制
# coding:utf-8 import pandas as pd import numpy as np from matplotlib import pylab as plt # 导入数据可视化库Matplotlib并重命名为plt plt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签 plt.rcParams['axe...原创 2019-01-16 17:19:33 · 1202 阅读 · 0 评论 -
补充Pandas的Series结构
import pandas as pd from pandas import Series runbo = pd.read_csv("test.csv") runbo_test = runbo["Name"] # 获取csv里列名为Name的数据 print(type(runbo_test)) # 打印列名为Name的结构类型 print(runbo_test[0:5]) # 打印...原创 2019-01-16 17:00:43 · 141 阅读 · 0 评论 -
逻辑回归算法
逻辑回归原理推导 目的:分类还是回归? (经典的二分类算法) 什么是回归:比如说我们有两类数据,各有50个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非线性),就是回归。我们通过大量的数据找出这条线,并拟合出这条线的表达式,再有新数据,我们就以这条线为区分来实现分类。 机器学习算法选择:先逻辑回归再用复杂的,能简单还是用简单的 ...原创 2019-01-22 11:23:08 · 216 阅读 · 0 评论 -
泰坦尼克号船员获救预测学习笔记
import numpy as np import pandas as pd titanic_survival = pd.read_csv("train.csv") print(titanic_survival.head()) print("********************************") age = titanic_survival["Age"] pri...原创 2019-01-16 10:02:43 · 640 阅读 · 0 评论 -
梯度下降策略
梯度下降原理 直观解释:比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山...原创 2019-01-21 11:46:36 · 756 阅读 · 0 评论 -
python数据分析处理库-Pandas
import pandas as pd # 导入pandas库,并重命名为pd a = pd.read_csv("1.csv") # 读取csv文件 print(type(a)) # 打印a的类型 print(a.dtypes) # 打印csv文件里各字段类型 print("-----------------------------------") print(a.head()) # 默认显...原创 2019-01-15 16:12:49 · 241 阅读 · 2 评论 -
决策树算法学习笔记
决策树原理概述 树模型 决策树:从根节点开始一步步走到叶子节点(决策) 所有的数据最终都会落到叶子节点,既可以做分类也可以做回归 树的组成 根节点:第一个选择点 非叶子节点与分支:中间过程 叶子节点:最终的决策结果(没有后代的节点) 节点 增加节点相当于在数据中切一刀 节点越多越好吗? 决策树的训练与测试 训练阶段:从给定的训练集构造出来一棵树(从...原创 2019-01-25 14:19:24 · 166 阅读 · 0 评论 -
Python科学计算库-Numpy
import numpy np = numpy.array([[1, 2, 3],[4, 5, 6],[7, 8, 9]]) print(np[:, 1]) # ":"表示所有的行,"1"表示第二列 print(np[:, 0:2]) print("------------------------------------------------") np1 = numpy.array([1, ...原创 2019-01-14 17:15:40 · 142 阅读 · 0 评论 -
线性回归算法原理推导
线性回归算法概述 一个栗子 数据:工资和年龄(两个特征) 目标:预测银行会贷款给我多少钱(标签) 考虑:工资和年龄都会影响最终银行贷款的结果那么它们各自有多大的影响呢(参数) 通俗解释 x1,x2就是我们的两个特征(年龄,工资),Y是银行最终会借给我们多少钱 找到最合适的一条线(想象一个高维)来最好的拟合我们的数据点 ...原创 2019-01-18 13:52:51 · 261 阅读 · 0 评论 -
K最近邻算法(KNN)
正如俗话说----近朱者赤,近墨者黑,想象一下我们的数据集里面有一半是“朱”,一半是“墨”,现在有了一个新数据点,我们怎么判断它属于哪一个分类? 下面就引出了KNN的原理:新数据点离谁最近,就和谁属于同一类 所以说KNN是非常简单的算法,也是新手入门机器学习的简单算法 #导入数据集生成器 from sklearn.datasets import make_blobs #导入KNN分...翻译 2019-03-28 18:58:20 · 275 阅读 · 0 评论