风雪云侠-CSDN博客

原创机器学习之朴素贝叶斯学习笔记

朴素贝叶斯一、概述朴素贝叶斯算法是有监督的学习算法，解决的是分类问题，如客户是否流失、是否值得投资、信用等级评定等多分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立（条件特征独立）性和连续变量的正态性假设为前提，就会导致算法精度在某种程度上受影响。二、朴素贝叶斯理论朴素贝叶斯是贝叶斯决策理论的一部分，所以在学习朴素贝叶斯之前有必要快速了解一下贝叶斯决策理论。1、贝叶斯决策理论假设现在我们有一个数据集，它由两类数据组

2021-01-18 20:44:08 4648

原创非常棒的LaTeX公式手册

LaTeX公式手册https://1024th.github.io/MathJax_Tutorial_CN/#/

2021-01-18 19:42:26 583

原创机器学习之决策树学习笔记

决策树1、决策树的概念决策树是什么？决策树(decision tree)是一种基本的分类与回归方法，通俗的讲也就是一颗用于决策的树。决策树长什么样呢？举个通俗易懂的例子，如下图所示的流程图就是一个决策树。这个决策树中，长方形代表判断模块(decision block)，也就是用于条件判断的模块。椭圆形代表终止模块(terminating block)，表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作为分支(branch)，它可以达到另一个判断模块或者终止模块。回到这个流程图，

2021-01-14 11:12:48 648

原创 AI知识树

AI知识树AI+领域知识打造统一的系统，就像爱因斯坦想要找到统一宇宙规律的公式一样。知识树核心就是AI+领域知识，在吸取了大量的知识养分之后，逐渐成长，从小树变成大树，大树在秋季会结果，当然随着时间的积累，这颗知识树也会结果，每一个枝丫代表着一个大的领域或者方向，每一篇树叶都是领域知识，每一颗果实就对应着一个专业领域的应用成果，有的领域的果实因为丰富的领域知识可能长的比较好，枝繁叶茂，硕果累累。有的领域可能由于领域知识不足，长得稀稀疏疏，果实不大，有点营养不良，这时就需要时间来进一步去促进和推动领域的发

2021-01-10 11:01:45 579

原创机器学习之K-近邻算法学习笔记

K-近邻算法1、k-近邻法简介k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的

2021-01-09 15:28:39 471

原创解决spyder下使用matplotlib绘图中文显示不出来

在spyder的代码中导入下面的code:import matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] = ["Microsoft YaHei"]plt.rcParams['axes.unicode_minus'] = False

2021-01-08 16:48:19 1889

原创 pandas之连接学习笔记

连接一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作，在关系型连接中，键是十分重要的，往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数merge 和join 中提供了how 参数来代表连接形式，分为左连接left 、右连接 right 、内连接 inner 、外连接 outer ，它们的区别可以用如下示意图表示：从图中可以看到，所谓左连接即以左表的键为准，如果右表中的键于左表存在，那么就添加到左表，

2021-01-07 10:18:52 1382 1

原创 pandas之索引的变形stack和unstack

unstackunstack 函数的作用是把行索引转为列索引，例如下面这个简单的例子：In [41]: df = pd.DataFrame(np.ones((4,2)), ....: index = pd.Index([('A', 'cat', 'big'), ....: ('A', 'dog', 'small'), ....:

2021-01-06 20:37:16 488 1

原创 pandas之变形学习笔记

变形一、长宽表的变形什么是长表？什么是宽表？这个概念是对于某一个特征而言的。例如：一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表：In [3]: pd.DataFrame({'Gender':['F','F','M','M'], ...: 'Height':[163, 160, 175, 180]}) ...: Out[3]

2021-01-06 20:24:48 306 1

原创 pandas之分组groupby学习笔记

分组In [1]: import numpy as npIn [2]: import pandas as pd一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛，例如：依据性别分组，统计全国人口寿命的平均值依据季节分组，对每一个季节的温度进行组内标准化依据班级分组，筛选出组内数学分数的平均值超过80分的班级从上述的几个例子中不难看出，想要实现分组操作，必须明确三个要素：分组依据、数据来源、操作及其返回结果。同时从充分性的角度

2021-01-05 16:00:33 1335

原创 pandas之query方法和sample随机抽样

query方法在 pandas 中，支持把字符串形式的查询表达式传入 query 方法来查询数据，其表达式的执行结果必须返回布尔列表。在进行复杂索引时，由于这种检索方式无需像普通方法一样重复使用 DataFrame 的名字来引用列名，一般而言会使代码长度在不降低可读性的前提下有所减少。例如In [61]: df.query('((School == "Fudan University")&' ....: ' (Grade == "Senior")&' ..

2021-01-04 23:15:34 707

原创 pandas之滑动窗口学习笔记（shift, diff, pct_change）

窗口对象pandas 中有3类窗口，分别是滑动窗口 rolling 、扩张窗口 expanding 以及指数加权窗口 ewm 。滑窗对象要使用滑窗函数，就必须先要对一个序列使用 .rolling 得到滑窗对象，其最重要的参数为窗口大小 window 。In [95]: s = pd.Series([1,2,3,4,5])In [96]: roller = s.rolling(window = 3)In [97]: rollerOut[97]: Rolling [window=3,cen

2021-01-03 21:43:19 5113

原创 pandas之常用基本函数学习笔记

pandas之替换函数一般而言，替换操作是针对某一个列进行的，因此下面的例子都以 Series 举例。 pandas 中的替换函数可以归纳为三类：映射替换、逻辑替换、数值替换。其中映射替换包含 replace 方法、str.replace 方法以及 cat.codes 方法，此处介绍 replace 的用法。在 replace 中，可以通过字典构造，或者传入两个列表来进行替换：In [67]: df['Gender'].replace({'Female':0, 'Male':1}).head()O

2021-01-03 20:17:28 393

原创 python训练营—Python入门(下)

Python入门(下)简介Python 是一种通用编程语言，其在科学计算和机器学习领域具有广泛的应用。如果我们打算利用 Python 来执行机器学习，那么对 Python 有一些基本的了解就是至关重要的。本 Python 入门系列体验就是为这样的初学者精心准备的。本实验包括以下内容：函数函数的定义函数的调用函数文档函数参数函数的返回值变量作用域Lambda 表达式匿名函数的定义匿名函数的应用类与对象对象 = 属性 + 方法self 是什么？Python 的魔

2021-01-02 21:14:01 352

原创 python训练营—Python入门(上)

Python入门(上)简介Python 是一种通用编程语言，其在科学计算和机器学习领域具有广泛的应用。如果我们打算利用 Python 来执行机器学习，那么对 Python 有一些基本的了解就是至关重要的。本 Python 入门系列体验就是为这样的初学者精心准备的。本实验包括以下内容：变量、运算符与数据类型注释运算符变量和赋值数据类型与转换print() 函数位运算原码、反码和补码按位非操作 ~按位与操作 &按位或操作 |按位异或操作 ^按位左移操作 <

2020-12-29 23:24:17 769 1

原创 python训练营—Python入门(中)

Python入门(中)简介列表1. 列表的定义2. 列表的创建3. 向列表中添加元素4. 删除列表中的元素5. 获取列表中的元素6. 列表的常用操作符7. 列表的其它方法元组1. 创建和访问一个元组2. 更新和删除一个元组3. 元组相关的操作符4. 内置方法5. 解压元组字符串1. 字符串的定义2. 字符串的切片与拼接3. 字符串的常用内置方法4. 字符串格式化字典1. 可变类型与不可变类型2. 字典的定义3. 创建和访问字典4. 字典的

2020-12-29 22:41:01 286

原创机器学习术语表

机器学习术语表A/B 测试 (A/B testing)一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较，但也适用于任意有限数量的技术和衡量方式。...

2020-12-28 16:31:16 233

原创 python利用位运算实现快速计算

按位异或操作 ^1 ^ 1 = 01 ^ 0 = 10 ^ 1 = 10 ^ 0 = 0只有两个对应位不同时才为 100 00 01 01 -> 5^00 00 01 10 -> 6---00 00 00 11 -> 3异或操作的性质：满足交换律和结合律A: 00 00 11 00B: 00 00 01 11A^B: 00 00 10 11B^A: 00 00 10 11A^A: 00 00 00 00A^0: 00 00 11 00A^B^A

2020-12-27 21:04:12 337

原创 Pyecharts数据可视化（1）

Pyecharts入门教程1、Pyecharts安装!pip install pyecharts导入from pyecharts.charts import Barfrom pyecharts import options as opts# 以下参数指定了使用Kesci提供的pyecharts_assets, 加载速度更快bar = ( Bar(opts.InitOpts(js_host="https://cdn.kesci.com/lib/pyecharts_assets/"))

2020-12-26 13:21:31 333 1

原创 pyecharts数据可视化（2）

安装pyechartspip install pyecharts安装snapshot_seleniumpip install snapshot_selenium举例from pyecharts import options as optsfrom pyecharts.globals import ThemeType # 导入主题：https://pyecharts.org/#/zh-cn/themes # .LIGHT、.DARK、.CHALK、.ESSOS、.INFOGRA

2020-12-26 13:12:03 892

原创 seaborn、matplotlib、Pyecharts、Plotly数据可视化

seabornseaborn数据可视化matplotlibmatplotlib数据可视化官网matplotlib数据可视化中文版PyechartsPyecharts数据可视化中文版PlotlyPlotly数据可视化githubPlotly数据可视化官网

2020-12-25 16:18:57 787

原创 matplotlib可视化学习笔记（1）

matplotlib可视化学习折线图plt.plot(x,y,linestyle,linewidth,color,marker,markersize,markeredgecolor,markerfactcolor,label,alpha) 参数说明x指定折线图的x轴数据；y指定折线图的y轴数据；linestyle指定折线的类型，可以是实线、虚线、点虚线、点点线等，默认文实线；linewidth指定折线的宽度marker可以为折线图添加点，该参数

2020-12-25 11:38:32 174

原创 matplotlib魔幻的表格操作

matplotlib表格操作表格视觉样式：Dataframe.style → 返回pandas.Styler对象的属性，具有格式化和显示Dataframe的有用方法样式创建：① Styler.applymap：elementwise → 按元素方式处理Dataframe② Styler.apply：column- / row- / table-wise → 按行/列处理Dataframe1.表格样式创建import numpy as npimport pandas as pdimport m

2020-12-24 17:21:14 226 1

原创 pandas入门教程（4）

分类df = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'e', 'e']})df''' id raw_grade0 1 a1 2 b2 3 b3 4 a4 5 e5 6 e'''把raw_grade转换为分类类型df["grade"] = df["raw_grade

2020-12-23 16:51:42 265

原创 pandas入门教程（3）

时间序列pandas在对频率转换进行重新采样时拥有着简单，强大而且高效的功能（例如把按秒采样的数据转换为按5分钟采样的数据）。这在金融领域很常见，但又不限于此。rng = pd.date_range('1/1/2012', periods=50, freq='S')rng'''DatetimeIndex(['2012-01-01 00:00:00', '2012-01-01 00:00:01', '2012-01-01 00:00:02', '2012-01-01 0

2020-12-23 16:09:45 155

原创 pandas入门教程（2）

pandas入门教程缺失值处理在pandas中，用np.nan来代表缺失值，这些值默认不会参与运算。reindex()允许你修改、增加、删除指定轴上的索引，并返回一个数据副本。df1 = df.reindex(index=dates[0:4], columns=list(df.columns)+['E'])df1.loc[dates[0]:dates[1],'E'] = 1df1''' A B C D F E20

2020-12-23 15:39:49 410

原创 pandas入门教程 (1)

pandas入门教程import pandas as pdimport numpy as npimport matplotlib.pyplot as plt#coding:utf8%matplotlib inline创建对象通过传递一个list来创建Series，pandas会默认创建整型索引：s = pd.Series([1,3,5,np.nan,6,8])s'''0 1.01 3.02 5.03 NaN4 6.05 8.0dtyp

2020-12-23 10:48:02 242

原创 Python pandas.DataFrame.idxmax函数方法的使用

idxmax函数方法的使用DataFrame.idxmax(self, axis=0, skipna=True) 返回在请求轴上第一次出现最大值的索引。不包括NA/null。参数说明axis{0或’index’，1或’columns’}，默认0；skipnabool, default True。排除NA / null值。如果整个行/列是NA，结果将是NA。return沿指定轴的最大值索引。考虑一个包含阿根廷食品消费的数据集。df = pd.DataFr

2020-12-22 16:28:59 10269

原创 Pandas中resample方法详解

Pandas中resample方法详解Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。重新取样时间序列数据。方便的时间序列的频率转换和重采样方法。对象必须具有类似datetime的索引(DatetimeIndex、PeriodIndex或TimedeltaIndex)，或将类似datetime的值传递给on或level关键字。DataFrame.resample(rule, axis=0, closed=None, la

2020-12-22 15:48:19 35569 6

空空如也

空空如也