JZT2015-CSDN博客

原创 DataWhale-(数据可视化Matplotlib)-Task04(样式色彩秀芳华)-202201

数据可视化Matplotlibfantastic-matplotlib第五回：样式色彩秀芳华第五回详细介绍matplotlib中样式和颜色的使用，绘图样式和颜色是丰富可视化图表的重要手段，因此熟练掌握本章可以让可视化图表变得更美观，突出重点和凸显艺术性。关于绘图样式，常见的有3种方法，分别是修改预定义样式，自定义样式和rcparams。关于颜色使用，本章介绍了常见的5种表示单色颜色的基本方法，以及colormap多色显示的方法。一、matplotlib的绘图样式（style）在matplotl

2022-01-23 19:18:16 216

原创 DataWhale-(数据可视化Matplotlib)-Task04(文字图例尽眉目)-202201

数据可视化MatplotlibFantastic-Matplotlib第四回：文字图例尽眉目import matplotlibimport matplotlib.pyplot as pltimport numpy as npimport matplotlib.dates as mdatesimport datetime一、Figure和Axes上的文本Matplotlib具有广泛的文本支持，包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Un

2022-01-21 21:37:06 216

原创 DataWhale-(数据可视化Matplotlib)-Task03(布局格式定方圆)-202201

datawhalechina/fantastic-matplotlib第三回：布局格式定方圆第三回：布局格式定方圆import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号一、子图1. 使用

2022-01-18 19:04:26 191

原创 DataWhale-(动手学数据分析)-Task02(第4节数据可视化)-202201

动手学数据分析第二章第4节数据可视化开始之前，导入numpy、pandas包和数据# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt#导入result.csv这个文件text =

2022-01-17 16:41:24 107

原创 DataWhale-(数据可视化Matplotlib)-Task02(艺术画笔见乾坤)-202201

数据可视化Matplotlibdatawhalechina的数据可视化Matplotlibimport numpy as npimport pandas as pdimport reimport matplotlibimport matplotlib.pyplot as pltfrom matplotlib.lines import Line2D from matplotlib.patches import Circle, Wedgefrom matplotlib.collection

2022-01-16 16:41:16 190

原创 DataWhale-(动手学数据分析)-Task02(第2-3节数据重构)-202201

动手学数据分析2 第二章数据重构# 导入基本库import numpy as npimport pandas as pd2.4 数据的合并2.4.1 任务一：将data文件夹里面的所有数据都载入，与之前的原始数据相比，观察他们的之间的关系text_left_up = pd.read_csv("data/train-left-up.csv")text_left_down = pd.read_csv("data/train-left-down.csv")text_right_up = p

2022-01-15 16:01:00 126

原创 DataWhale-(动手学数据分析)-Task02(数据清洗及特征处理第1节)-202201

动手学数据分析第二章：数据清洗及特征处理import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read.csv('train.csv')df.head(10)数据清洗简述我们拿到的数据通常是不干净的，所谓的不干净，就是数据中有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本章我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。2.1

2022-01-13 18:41:41 99

原创 DataWhale-(动手学数据分析)-Task01(数据加载及探索性数据分析)-202201

动手学数据分析1第一节：数据加载1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 任务一：导入numpy和pandasimport numpy as npimport pandas as pd1.1.2 任务二：载入数据df=pd.read_csv('train.csv')df.head(3)1.1.3 任务三：每1000行一个数据模块，逐块读取chunker = pd.read_csv('train.csv

2022-01-11 23:56:24 1069

原创 DataWhale-(数据可视化Matplotlib)-Task01(Matplotlib初相识)-202201

Matplotlib中文教程datawhalechina的Fantastic-Matplotlib一、认识matplotlibMatplotlib是一个Python 2D绘图库，能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形，用来绘制各种静态，动态，交互式的图表。Matplotlib可用于Python脚本，Python和IPython Shell、Jupyter notebook，Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是Python数据可视化库中的泰斗，

2022-01-11 18:25:32 108

原创 DataWhale-(scikit-learn教程)-Task08(可视化总结)-202112

西瓜书代码实战一、决策树可视化import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn import treeimp

2022-01-05 10:55:52 1244

原创 DataWhale-(scikit-learn教程)-Task07(集成学习)-202112

一、基本原理集成学习(ensemble learning) 通过构建并结合多个学习器来完成学习任务，以提高比单个学习器更好的泛化和稳定性能。要获得好的集成效果，个体学习器应该“好而不同”。按照个体学习器的生成方式，集成学习可分为两类：序列集成方法，即个体学习器存在强依赖关系，必须串行生成，如Boosting；并行集成方法，即个体学习器不存在强依赖关系，可以并行生成，如Bagging，随机森林。二、BoostingBoosting指的是通过算法集合将弱学习器转换为强学习器。Boosting的主要原则是训

2022-01-01 22:55:40 1068

原创 DataWhale-(scikit-learn教程)-Task06(主成分分析)-202112

一、 PCA主成分分析算法介绍二、算法实现import sysfrom pathlib import Pathcurr_path = str(Path().absolute()) # 当前文件所在绝对路径parent_path = str(Path().absolute().parent) # 父路径sys.path.append(parent_path) # 添加路径到系统路径from Mnist.load_data import load_local_mnistfrom skle

2021-12-30 17:56:11 802

原创 DataWhale-(scikit-learn教程)-Task05(K均值聚类)-202112

sklearn机器学习实战周志华《机器学习》一、K均值聚类基本原理及算法二、K均值聚类算法实现import matplotlib.pyplot as pltfrom sklearn.datasets import make_blobsfrom sklearn.cluster import KMeans# make_blobs：生成聚类的数据集# n_samples：生成的样本点个数，n_features：样本特征数，centers：样本中心数# cluster_std：聚类标准差

2021-12-27 11:49:09 713

原创 DataWhale-Linux组队学习-(Task08-10)-202112

Datawhale Linux组队学习任务8步骤1：步骤2：1.统计歌词中包含【超人】的歌词2. 统计歌词中包含【外婆】但不包含【期待】的歌词3. 统计歌词中以【我】开头的歌词4.统计歌词中以【我】结尾的歌词步骤3：1.将歌词中第2行至第40行删除2. 将歌词中所有【我】替换成【你】任务9步骤1：步骤2：步骤3：步骤4：任务10：步骤1：步骤2：步骤3：...

2021-12-26 18:12:44 382

原创 DataWhale-(scikit-learn教程)-Task04(决策树)-202112

一、决策树基本算法二、基于sklearn的算法实现https://github.com/datawhalechina/machine-learning-toy-code/tree/main/ml-with-sklearnimport seaborn as snsfrom pandas import plottingimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.tree i

2021-12-24 17:44:59 1105

原创 DataWhale-Linux组队学习-(Task05-07)-202112

Datawhale Linux组队学习------------------------------------------------------------------------------------------------------------------作业解答：在home/datawhale目录下，在自己昵称的文件夹中，使用如下命令创建一个test5.py文件vim test5.py使用vim编辑test5.py文件#! /usr/bin/python# -*- coding

2021-12-22 21:41:06 738

原创 DataWhale-(scikit-learn教程)-Task03(贝叶斯)-202112

datawahle代码地址参考周志华《机器学习》1. 朴素贝叶斯算法朴素贝叶斯代码实现import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns;sns.set()from sklearn.datasets import make_blobs# make_blobs：为聚类产生数据集# n_samples：样本点数，n_features：数据的维度，centers:产生数据的中心点，默认值3# c

2021-12-21 21:22:48 593

原创 DataWhale-(scikit-learn教程)-Task02(支持向量机)-202112

Sklearn组队学习Q&A代码一、SVM原理及算法1. 线性支持向量机学习算法2. 非线性SVM算法原理二、代码实现1. 基于numpy实现SVM#!/usr/bin/env python# coding=utf-8import sys,oscurr_path = os.path.dirname(os.path.abspath(__file__)) # 当前文件所在绝对路径parent_path = os.path.dirname(curr_path) #

2021-12-18 18:11:28 241

原创 DataWhale-Linux组队学习-(Task01-04)-202112

Datawhale Linux组队学习任务1：使用命令行登录指定的Linux环境任务要点：ssh登录、密码输入、环境配置步骤1：配置本地登录环境如果是window系统，安装任意一款ssh工具https://blog.csdn.net/puss0/article/details/103390947https://www.runoob.com/linux/linux-remote-login.html如果是Mac或Linux系统，则不需要，可以直接使用ssh步骤2：使用如下信息登录系统用

2021-12-17 15:57:51 958

原创 DataWhale-(scikit-learn教程)-Task01(线性回归与逻辑回归)-202112

DataWhale-(scikit-learn教程)-Task01(线性回归与逻辑回归)-202112DataWhale的scikit-learn教程链接一、线性回归1. 线性回归的基本形式2. 梯度下降法训练假设给定模型h(θ)=∑j=0nθjxjh(\theta)=\sum_{j=0}^{n} \theta_{j} x_{j}h(θ)=∑j=0nθjxj以及目标函数(损失函数):J(θ)=1m∑i=0m(hθ(xi)−yi)2J(\theta)=\frac{1}{m} \sum

2021-12-15 20:21:54 1605

原创 DataWhale-树模型与集成学习-Task06-梯度提升树02-202110

链接地址：Part D: 梯度提升树 — Datawhale一、练习题1. 练习题01解答：(1)(2) 因为模型希望每次拟合值较小而引入了,这是一个二次函数，因为w是小量，展开到3阶以上没有意义。(3) 所以 ...

2021-11-07 22:27:52 518

原创 DataWhale-树模型与集成学习-Task06-梯度提升树01-202110

一、练习题1. 练习题1解答：(1) 均方损失函数所以(2) 绝对值损失函数所以是中位数。2. 练习题2解答： ...

2021-11-03 23:57:16 137

原创 DataWhale-西瓜书+南瓜书-第6章支持向量机学习总结-Task05-202110

给定训练样本集，支持向量机主要是找到超平面将不同类别的样本分开。

2021-10-31 23:45:03 155

原创 DataWhale-树模型与集成学习-Task05-自适应提升树-202110

一、练习题1. 练习题1解答：因为,所以 2.练习题2解答：

2021-10-31 00:52:19 247

原创 DataWhale-西瓜书+南瓜书-第5章神经网络学习总结-Task04-202110

5.1 神经元模型激活函数：5.2 感知机与多层网络感知机由两层神经元组成。感知机只拥有一层功能神经元，其学习能力非常有限。要解决非线性可分问题，需要多层神经网络。5.3 误差逆传播算法 bp网络是指使用Bp算法训练的多层前馈神经网络。 5.4 全局最小与局部最小5.6 深度学习...

2021-10-27 14:32:52 153

原创 DataWhale-树模型与集成学习-Task04-集成模式-202110

part B：集成模式：4. 两种并行集成的树模型一、练习题1. 练习题1解答：均方误差RMSE是预测值与真实值得误差平方根的均值。r2_score方法是将预测值和只使用均值的情况下相比，看能好多少。当量纲不同时，r2_score更容易衡量模型的效果好坏。2. 练习题2解答：没有影响，因为只...

2021-10-24 23:04:56 273

原创 DataWhale-西瓜书+南瓜书-第4章决策树学习总结-Task03-202110

4.1 决策树的基本流程4.2 划分选择4.2.1 信息增益“信息熵”是度量样本集合纯度最常用的一种指标。信息增益定义为：一般而言，信息增益越大，则意味着使用某属性进行划分所获得的纯度提升越大。4.2.2 增益率信息增益偏好可取数目较多的属性，所以要使用“增益率”。 ...

2021-10-24 17:27:35 218

原创 DataWhale-树模型与集成学习-Task03-集成模式-202110

一、侧边栏练习题1. 练习1解答：由于是白噪声，所以最后一项推导如下：根据上面的推导，很容易看出第四个等号成立。2. 练习2解答：(1) 如果一个模型预测值都与真实值一致，那么可以偏差方差都很小。(2)偏差度量了学习算法的期望预测与真实结果...

2021-10-20 16:59:25 195

原创 DataWhale-西瓜书+南瓜书第3章线性模型学习总结-Task02-202110

3.1基本形式样本，其中是在第i个属性上的取值。线性模型试图学得一个通过属性得线性组合来进行预测得函数，即 3.2 线性回归3.2.1 一元线性回归均方误差最小化，对w和b求导：上面两个方程等于0可以得到 ...

2021-10-18 23:00:31 161

原创 DataWhale-树模型与集成学习-Task02-Cart分类树代码实现-202110

助教老师实现了Cart回归树，在老师代码的基础上，实现了Cart分类树，代码如下：import numpy as npdef Gini(y): gn=1.0 n=y.shape[0] for i in np.unique(y): gn=gn-(np.sum(y==i)/n)**2 return gndef argmax(y): l=sorted([(np.sum(y==i),i) for i in np.unique(y)],re...

2021-10-17 17:22:37 263 1

原创 DataWhale-树模型与集成学习-Task01-决策树-202110

一、练习题1. 练习01解答：(1)(2)结合可以得到(3)通过上面已经得到的公式，很容易证明(4)H(X)对应A U B, H(Y)对应B U C, H(X|Y)对应A, H(Y|X)对应C, H(Y,X)对应AUBUC, G(Y,X)对应B2. 练习02 【练习】假设当前我们需要处理一个分类问题，请问对输入特征进行归一化会对树模型的类别输出产生影响吗？请解释原因。解答：不会，因为归一化处理不会改变样本输入特征和样本标签类别的分布...

2021-10-14 21:32:35 694 1

原创西瓜书+南瓜书第1、2章学习总结-Task01-202110

第一章绪论1.2 基本术语一般的令表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例是d维样本空间中的一个向量，其中是在第j个属性上的取值，d称为样本的“维数”。从数据中学得模型的过程称为“学习”或“训练”。若想要预测的数据是离散值，此类学习任务称为“分类”。若想要预测的数据是连续值，此类学习任务称为“回归”。根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习”和“无监督学习”，分类和回归是前者的代表，而聚类是后者的代表。机...

2021-10-12 23:22:33 98

sinat_36892485的博客