自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 机器学习0:模型评估标准Model Evaluation

本文主要分享了一些回归及分类模型评估的指标和方法,并且附上了一些对于指标构建的思路,通过一些图解来加深对指标的印象。

2020-09-10 18:00:11 1664 2

原创 概念系列1:标准差&标准误

标准差和标准误的相同点/区别

2020-09-07 00:11:47 1503

转载 强化学习1:强化学习基础学习笔记(基于Python)

强化学习是研究智能体以及智能体如何通过反复试验学习的方法。它正式化了这样一种思想,即奖励(惩罚)行为人的行为,使其将来更有可能重复(放弃)该行为。强化学习是和监督学习、非监督学习并列的第三种机器学习方法,强化学习来和监督学习最大的区别是它是没有监督学习已经准备好的训练数据输出值的。强化学习和非监督学习的区别。也还是在奖励值这个地方。

2020-07-21 22:01:53 672

原创 并行框架2:PySpark之RDD(基于Python)

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。

2020-07-07 14:14:05 749

原创 并行框架1:PySpark介绍及安装(基于Python)

Apache Spark 是一个开源集群运算框架,最初是由加州大学柏克莱分校 AMPLab 所开发。相对于 Hadoop 的 MapReduce 会在运行完工作后将中介数据存放到磁盘中,Spark 使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark 在存储器内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍,即便是运行程序于硬盘时,Spark 也能快上 10 倍速度。

2020-06-29 17:39:50 342

转载 组队学习8:自然语言处理NLP(二)

最近又懒惰了(虽然确实事情也多),好久没有空更新博客,遂报名公众号 Datawhale 的 NLP 学习小组来督促自己学习。学习小组的目的主要是细致地学习 NLP 的一些概念,更好地巩固自己的文本挖掘能力。

2020-06-27 21:25:45 216

转载 组队学习7:自然语言处理NLP(一)

最近又懒惰了(虽然确实事情也多),好久没有空更新博客,遂报名公众号 Datawhale 的 NLP 学习小组来督促自己学习。学习小组的目的主要是细致地学习 NLP 的一些概念,更好地巩固自己的文本挖掘能力。

2020-06-25 10:53:52 271

原创 安装配置跟头贴:Mac 安装Python模块Stanfordcorenlp + 安装R语言REPPlab包 + Vscode 配置Latex

基于 Mac 安装Python模块Stanfordcorenlp + 安装R语言REPPlab包 + Vscode 配置Latex

2020-06-16 13:55:26 453 1

原创 组队学习6:综合题(一)(基于Python)

最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。

2020-05-01 15:55:50 374

原创 组队学习5:Pandas合并(一)(基于Python)

最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。

2020-04-30 22:15:00 222

原创 组队学习4:Pandas变形(基于Python)

最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。

2020-04-28 16:39:55 263

原创 组队学习3:Pandas分组(一)(基于Python)

最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。

2020-04-26 23:52:23 324

原创 组队学习2:Pandas索引(一)(基于Python)

最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。

2020-04-23 23:04:12 310

原创 机器学习3:K近邻法K-Nearest-Neighbor Classifier/KNN(基于R language&Python)

k近邻法是一种基本分类与回归问题。k近邻法的输入为实例的特征向量,对应于特征空间中的点;输出为实例的类别,可以取很多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其 k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k近邻法的三个要素是k值的选择、距离度量及分类决策规则。

2020-04-21 23:06:48 2076

原创 组队学习1:Pandas基础(基于Python)

最近事情太多(以及人太懒),好久没有空更新博客,遂报名公众号Datawhale的Pandas学习小组来督促自己学习。学习小组的目的主要是细致地学习Python中的第三方模块Pandas,该模块用于数据导入及整理的模块,对数据挖掘前期数据的处理工作十分有用。

2020-04-20 22:16:12 357

原创 深度学习4:网络优化Network Optimization(基于Python MXNet.Gluon框架)

任何数学技巧都不能弥补信息的缺失。虽然神经网络具有非常强的表达能力,但是当应用神经网络模型到机器学习时依然存在一些难点问题。主要分为两大类:优化问题和正则化问题。本文主要讲解了网络优化问题,优化问题:神经网络模型是一个非凸函数,再加上在深度网络中的梯度消失问题,很难进行优化;另外,深度神经网络模型一般参数比较多,训练数据也比较大,会导致训练的效率比较低。

2020-04-05 21:20:58 1782

原创 深度学习3:循环神经网络Recurrent Neural Network(基于Python MXNet.Gluon框架)

循环神经网络(Recurrent Neural Network,RNN)是一类短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其他神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。

2020-03-28 21:47:40 1038

原创 机器学习2:朴素贝叶斯分类器Naïve Bayes Classifier(基于R language&Python)

朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法(朴素贝叶斯法与贝叶斯估计是不同的概念)。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对个给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y。朴素贝叶斯方法实现简单,学习与预测的效率都很高,是一种常用的方法。

2020-03-22 21:17:23 1253 1

原创 深度学习2:卷积神经网络Convolutional Neural Network(基于Python MXNet.Gluon框架)

卷积神经网络(Convolutional Neural Network,CNN)是前馈神经网络中的一种基础的网络结构,本节从卷积计算开始始,讲解了CNN的理论知识和实际应用。本文的深度学习框架基于MXNet/GLUON框架,安装方便,上手简单。

2020-03-16 14:11:19 1224

原创 金融统计模型1:资产、投资组合和套利Assets,Portfolios and Arbitrage

资产、投资组合和套利

2020-03-11 13:40:26 1219 1

原创 数据库学习5:数据库学习入门41-50题(基于MySQL)

SQL面试1-50题系列之41-50题,基于MySQL语言,使用的可视化工具是Navicat for MySQL。

2020-03-09 10:13:40 957

原创 数据库学习4:数据库学习入门31-40题(基于MySQL)

SQL面试1-50题系列之31-40题,基于MySQL语言,使用的可视化工具是Navicat for MySQL。

2020-03-08 21:23:06 383

原创 深度学习1:神经网络基础&前馈神经网络Feedforward Neural Network(基于Python MXNet.Gluon框架)

前馈神经网络(Feedforward Neural Network,FNN)是一种基础的神经网络结构,本节从神经网络基础开始,讲解了前馈神经网络中的全连接神经网络(又名多层感知机,MultiLayer Perceptron,MLP)的理论知识和实际应用。本文的深度学习框架基于MXNet/GLUON框架,安装方便,上手简单。

2020-03-08 10:18:42 4762

原创 数据库学习3:数据库学习入门21-30题(基于MySQL)

SQL面试1-50题系列之21-30题,基于MySQL语言,使用的可视化工具是Navicat for MySQL。

2020-03-02 23:00:37 431

原创 数据库学习2:数据库学习入门11-20题(基于MySQL)

SQL面试1-50题系列之11-20题,基于MySQL语言,使用的可视化工具是Navicat for MySQL。

2020-03-02 10:39:07 237

原创 数据库学习1:数据库学习入门1-10题(基于MySQL)

SQL面试1-50题系列之1-10题,基于MySQL语言,使用的可视化工具是Navicat for MySQL。

2020-02-29 21:27:48 491

原创 机器学习1:关联分析及频繁模式挖掘Association rule mining(基于R language)

关联分析是一种无监督的机器学习方法,常用于知识发现而非预测。本文从以下几个方面进行叙述: - 频繁项 Frequent Patterns - 关联挖掘方法 Association Mining Methods - apriori - ECLAT - 关联规则 Association Rules - 评价方法 Correlations-Pattern Evaluation Methods

2020-02-27 13:24:16 3185

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除