金融科技自习生-CSDN博客

原创 Pandas数据分析(下)｜一文学会pandas数据可视化

折线图分开显示多个图散点图柱形图绘制堆叠柱形图直方图箱形图饼图Pandas继承和优化了matplotlib，因此可以直接使用Series和DataFrame对象通过plot()方法轻松地绘制图形。使用pandas绘制图形时通常需配合matplotlib一起使用。Series和DataFrame调用plot()，默认绘制折线图。索引为X轴，数据为Y轴。通过设置plot()的参数subplot=True，可以将DataFrame的列自动拆分，然后分开显示为多个图像。使用plot.scatter()

2022-06-06 23:34:50 364 1

原创 Pandas数据分析(中)｜一文入门pandas数据处理

本文包括以下几部分数据筛选数据统计空值/NaN处理字符类型处理时间序列类型处理数据筛选按照筛选方式的不同，可以将数据筛选分为以下两种：两者的区别在于前者返回满足条件的数据，后者将不满足条件的以NaN值填充。使用表达式/布尔值筛选，即直接在“下标”中写出过滤条件，返回满足条件的数据。使用where()方法筛选数据，通过DataFrame.where(表达式) 可以筛选出满足条件的数据，同时不满足表达式的数据将以“NaN”值填充并一起返回。数据统计pandas提供一些函数实现对Series/D

2022-06-06 23:25:08 1196

原创 Pandas数据分析(上)｜一文读懂Series和DataFrame

Pandas数据分析(上)｜一文读懂Series和DataFrame

2022-06-05 19:24:14 3790

转载区块链与商业银行中的区块链运用

区块链与商业银行中的区块链运用区块链与商业银行中的区块链运用1. 区块链的本质是链表，以去中心化加密机制为信任机制传统的数据库管理系统基本上都是由单一的机构与进行维护与管理，单一机构对数据库的控制权具有绝对的地位，其他机构对数据的来源、更新等都没有足够的了解渠道。所以，在多个机构进行协作时，中心数据库管理系统就会存在数据互信的问题。以金融行业的清算与结算业务为例，由于中心数据库的信任难题无法解决，每个参与方都需要自行建设维护一套自己的数据库。这些数据库就像一座座信息孤岛，彼此信息不联通.

2021-01-12 22:17:00 3266

原创一行命令取消Mac命令行默认使用conda

mac安装完anaconda 后，命令行窗口默认使用conda的。取消默认用以下一行代码在命令行运行即可：conda config --set auto_activate_base false

2020-12-13 17:47:34 1369 2

原创 numpy-使用and/or 还是使用 &/or----ValueError: The truth value of an array with more than one element is...

两者区别：and和or对整个对象执行单个布尔运算，而&和|对一个对象里的内容（或者说比特位）执行多个布尔运算。使用 &/｜是数据的内部的位布尔运算。当对整个数组进行操作 and / or时，会报错ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()...

2020-06-07 21:45:23 741

原创干货收集和整理：Pytorch，Keras，数据分析

深度学习框架：Keras 、Pytorchhttps://github.com/huggingface/transformers (Keras作者推荐开源项目transformers)https://mp.weixin.qq.com/s/0CtTYBbTnbjuzNLmVQdpEw (强烈推荐的Pytorch快速入门资料和翻译)https://mp.weixin.qq.com...

2019-12-16 15:38:37 315

原创深度之眼【Pytorch】--Module、Sequential容器(附Keras的Sequential）

本文主要为深度之眼pytorch训练营二期学习笔记，详细课程内容移步：深度之眼https://ai.deepshare.net/index目录nn.Module容器SequentialModuleListModuleDict总结Keras-LeNetnn.Module容器Sequentialimport torc...

2019-10-28 20:36:19 806

原创机器学习实战之朴素贝叶斯--python/scikit-learn实现

目录理论基础知识基本思想贝叶斯模型手动计算实例一：实战项目--屏蔽社区留言板的侮辱性言论Python版本Scikit-learn版本One more thing1.连续特征的处理方式2.零概率问题--拉普拉斯平滑理论基础知识贝叶斯与大多数机器学习算法不同，如：决策树，逻辑回归，支持向量机等都是判别方法，也就是直接学习出特征输出Y和特征X之间的...

2019-10-28 11:52:10 1673

原创 Anaconda +Tensorflow 安装与验证

第一步：创建环境conda -n tensorflow python=3.5 (创建一个名叫tensorflow的环境，Python版本为3.5，其中名字可以自定，python版本也可以自定)第二步：激活新创建的环境activate tensorflow第三步：安装tensorflowpip install tensorflow第四步:转到python命令行，输入代码...

2019-10-26 14:56:55 1635

原创深度之眼【Pytorch】--数据增强

本文为深度之眼pytorch训练营二期学习笔记，详细课程内容移步：深度之眼https://ai.deepshare.net/index目录裁剪-Crop中心裁剪---transforms.CenterCrop随机剪裁--transforms.RandomCrop随机大小剪裁--transforms.RandomsizedCroptransforms.FiveCrop 和...

2019-10-25 16:11:27 2417 3

原创深度之眼【Pytorch】-读取自己的数据 Dataset 和 ImageFolder

本文为深度之眼pytorch训练营二期学习笔记，详细课程内容移步：深度之眼https://ai.deepshare.net/index目录重写Dataset类例子一：通过包含数据路径与标签的文件读取例子二：通过标签文件读取例子三：没有标签文件，代码中自己构造文件夹读取：ImageFolder例子一：重写Dataset类Pytorch文档里的源码...

2019-10-22 16:23:22 10835 9

原创深度之眼【Pytorch】--自动求导与逻辑回归（pytorch 与 keras实现）

本文主要为深度之眼pytorch训练营二期学习笔记，详细课程内容移步：深度之眼https://ai.deepshare.net/index目录求导逻辑回归逻辑回归-Pytorch实现Keras实现求导逻辑回归逻辑回归-Pytorch实现import torchimport torch.nn as nnimpor...

2019-10-17 16:11:23 506

原创机器学习实战之决策树--Python/scikit-learn实现

目录简单理论介绍ID3--信息增益C4.5--信息增益率CART--基尼系数决策树对比机器学习实战-决策树预测隐形眼镜类型（ID3）Python实现Scikit-learn实现简单理论介绍ID3--信息增益信息熵（ Information Entropy）：度量了事物的不确定性，越不确定的事物，它的熵就越大；随机变量X它的熵表达式如下：其中 ...

2019-10-15 17:20:21 969

原创深度之眼【Pytorch】--计算图与线性回归

本文为深度之眼pytorch训练营二期学习笔记，详细课程内容移步：深度之眼https://ai.deepshare.net/index目录计算图线性回归实现实现一：根据计算图的方式实现二：nn.Linear()的范式计算图通过计算图的示意，我们很容易的可以理解模型参数训练的过程，这个过程很像模型的前向传播和方向传播。叶子节点很重要，非叶子节点的梯度在...

2019-10-14 16:22:52 681

原创机器学习实战之K近邻（KNN）-python/sklearn实现

目录简单理论介绍kNN算法之约会网站配对（Python）scikit-learn实现简单理论介绍K最近邻（k-Nearest Neighbor，KNN）分类算法应该是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单：与它附近的k个样本比较，与它最相似（即特征空间中最邻近）的这K个样本中，大多数属于某一个类别，则该样本就属于这个类别。对于两个...

2019-10-11 16:15:31 1508

原创 RuntimeError: _th_normal not supported on CPUType for Long

解决方案：tensor的数据类型换一下。

2019-10-10 16:08:28 7627

原创关于模型评估的一些简单回顾

泛化性能：泛化能力用来评价一个训练好的模型在未知数据上的表现好坏。欠拟合与过拟合：欠拟合：指的是模型训练不够，没有捕获到数据中有用的特征或者模式。（低偏差）过拟合：模型过度训练，在训练数据上表现很好，在测试集上表现不佳。（高方差）看下图：左边：训练误差和测试误差都很高，代表欠拟合，偏差大。右边：训练误差很低，但是测试误差很高，代表过拟合，方差大。模型验证策略：...

2019-10-10 09:22:24 493

原创【精简推导】支持向量机（拉格朗日乘子法、对偶函数、KKT条件）

支持向量机，就是通过找出边际最大的决策边界，来对数据进行分类的分类器。因此，支持向量分类器又叫做最大边际分类器。（疯狂暗示：这是一个最优化问题啊~）直接上目标求解函数：这个式子是支持向量机基本形（这个目标式子的由来可以参考西瓜书）。一看这就是一个二次凸优化问题，虽然可以直接用优化包求解，但是效率不高，而且对于后面引入核函数也不方便。因此我们习惯用拉格朗日乘子法求解这个优化问题。...

2019-09-26 11:46:47 1946

原创【精简推导】逻辑回归（对数几率回归）

目录那么如何从线性回归得到我们的逻辑回归模型呢？？？那么我们怎么得到这个模型的参数θ？？？预备知识：1.线性回归方模型：2.函数及其几何图：Sigmoid函数是一个S形状的函数，当自变量Z趋近正无穷的时候，g（z）趋近于1，当自变量z趋近负无穷的时候，g（z）趋近于0.它能够把任意的实数压缩转换到0~1的区间（不等于0或者1）因此这种转换很适合用来做二...

2019-09-23 15:13:01 1279

原创【精简推导】线性回归、岭回归、Lasso回归（最小二乘法）

线性回归岭回归（Ridge）Lasso回归线性回归线性回归模型方程形式：矩阵形式：线性回归的任务就是要构造一个预测函数来映射，输入的特征矩阵和标签的线性关系。这个预测函数的本质就是我们需要构建的模型，而构造预测函数的核心就是找出模型的参数向量。损失函数：是样本i的真实标签，是预测标签。从损失函数可以看出其实这就是L2范式的平方。L2范...

2019-09-22 10:50:27 4403 5

原创 pandas基础操作浏览--更新中...

目录Series构建Series索引SeriesDataFrame构建DataFrame列检索行索引列赋值pandas中的数据结构：Series （一维） , DataFrame（二维）Series构建Series从另一个角度可以认为Series是一个长度固定且有序的字典，索引值和数据值位置匹配。索引SeriesD...

2019-09-20 11:02:10 106

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

在使用 pickle.load(open('文件')）的时候报错报错解决：pickle.load(open('文件'，‘rb’)）

2019-09-15 19:59:47 3608

原创 scikit-learn机器学习--特征处理

参考并推荐：菜菜的sklearn课堂：http://edu.cda.cn/course/982目录1.归一化：preprocessing.MinMaxScaler1.1实战部分：1.2实战部分：numpy实现归一化2.标准化 preprocessing.StandardScaler2.1实战部分3.汇总4.缺失值处理4.1实战部分4.2实战部分：panda...

2019-09-12 11:59:25 1804

原创 scikit-learn机器学习--随机森林

目录随机森林 RandomForestClassifier参数实战部分试验一试验二：n_estimators学习曲线ensemble模块 ensemble.AdaBoostClassifier AdaBoost分类 ensemble.AdaBoostRegressor Adaboost回归 ensemble.RandomForestClassi...

2019-09-11 21:48:05 1768 2

原创 scikit-learn机器学习--决策树

目录sklearn的基本建模流程分类树：DecisionTreeClassifier重要参数criterion实战部分重要接口七个参数：分类树与回归数参数对比回归数DecisionTreeRegressor实战部分：sklearn.tree模块 tree.DescisionTreeClassifier 分类树 tree.Descision...

2019-09-10 21:39:27 1248

原创 SQL与pandas操作对比-摘要

这里对于sql和pandas关于二维表的操作，做一个简单的摘抄汇总，持续更新中.......select 选择 SQL pandas select--展示某列 select Player,Socre from players players[ ['Player','score'] ] distinct--某列唯一值 select distinct Score...

2019-09-09 22:49:35 298

原创廖雪峰SQL教程-摘要

安装MySQL教程：https://www.cnblogs.com/laumians-notes/p/9069498.html#undefined#创建一个表CREATE TABLE w3cschool_tbl( w3cschool_id INT NOT NULL AUTO_INCREMENT, w3cschool_title VARCHAR(100) NOT ...

2019-09-09 17:19:20 258

原创 ImportError: Install xlrd >= 1.0.0 for Excel support错误出现及其解决帮法

没有pandas的话先pip install pandas然后pip install xlrd搞定。

2019-09-06 08:42:06 2434

原创 pandas基础--数据读写、数据情况、数据清洗、类型转换、数据连接

数据读写操作函数函数参数功能备注其他 pd.read_csv() 路径读文件 csv、txt pd.read_excel() pd.read_sql() df.to_csv() 写文件 df.to_exce...

2019-09-04 11:50:09 444

原创得到自己想要的高斯分布--numpy.random.randn()

在机器学习中我们经常会通过生成随机数来：初始化模型参数啊，或者生成随机样本来测试检验模型啊等等。最常用的如高斯分布（正态分布）：标准的高斯分布N(0,1)是最容易获得的。numpy 的random类中提供了生成服从均值为0 方差为1 的高斯分布的函数numpy.random.randn()那么。如果你想获得一个自己想要的高斯分布如 N(1,4)这个时候你就可以利用公式...

2019-08-20 10:09:52 4920

原创链式法则的求导证明（复合函数求导）

本文给出两种证明方式，第一种高等数学（复杂），第二种维基百科（简单）一：同济大学高等数学教材给的证明：二：维基百科给的证明以下给出一个简单的证明：设函数和, 其中 x 为自变量，f(g(x))在个g(x)处可导 ,g(x)在x出可导。根据可导的定义得：其中当时（这里的就是高等数学书上说的增量 Δx）同理：其中时现...

2019-08-13 11:45:23 21889

原创 pandas--数据类型转换

由于在科大讯飞广告比赛中用pandas处理数据不是太熟练，这里做一个关于数据类型转换的小节。纯数字类型最长用的一个：df['xxx'].astype()当你pandas读取到数据，某一列（行）的原始数据，都是数字的形式：如字符串：‘123’，7我在这里处理了‘sid’这一列的数据，然后生成新的一个特征‘newf’,查看一下它的数据类型，可以知道它是一个object类型的...

2019-08-04 10:51:56 2503

原创转置卷积（反卷积）为什么姓转置

转置卷积（反卷积）--为什么姓转置我们都知道常规的卷积操作：通过卷积将一个高维度的特征，转移（仿射）到一个低维度。如下图一个5 X5 的特征，通过一个3X3的卷积，步长=2，没有填充，一顿操作之后就可以将5X5 ----->2X2。这就是常规的卷积操作。从数学的仿射角度解释：一个高纬度的向量 Z （假设维度=5），和一个低维度向量X（假设维度=2），如果要用一个仿射变...

2019-08-01 11:04:15 693 2

原创图像描述-Image Caption

本文大致以show attent and tell 为讲解模板。图像描述的概念，在这里就不多概述了，用通俗的话就是--看图说话。而这篇文章虽然不是现在的最优模型，但是由于第一次将注意力机制引入到图像描述的模型中来，因此它的意义非常的重要。引人了注意力机制（Attentionmechanism,）--它能够让encode-decode模型能够像人一样，重点关注图像的某一个区域进行准确的描述...

2019-07-31 21:01:10 3001

原创 pytorchde一个小坑--CrossEntropyLoss()

pytorch 计算 CrossEntropyLoss 是需要先过softmax 层激活的。我们发现多分类实现的时候，前向传播的时候，如果后面我们调用了损失函数CrossEntropyLoss，那么，最后一层是不需要再加softmax函数激活的。下图是官网截图的代码：一般我们的知识里，做一个多分类的输出，最后一层要加一个softmax()激活函数，但是这里却没有。是不是会觉得很奇...

2019-07-23 14:55:03 1192

原创手推机器学习--EM算法（最大期望）

预备知识：jensen不等式或者：ELOB（证据下界）+KL散度相关参考资料：https://www.cnblogs.com/yifdu25/p/8278986.htmlKL散度：KL(q||p)表示的是用概率分布p去拟合真实分布q的时候产生的信息损耗。下面q(z) ,p(z|x)可以体会一下。理解KL（相对熵）：https://blog.csdn.net/ericcchen/art...

2019-07-17 20:28:59 321 1

原创 OSError: Initializing from file failed

今天在拿到科大讯飞移动广告反欺诈算法挑战赛数据的之后，刚开始用pd.read_csd()读取文件就给我报错，显示这个错误。# 导入数据data_path = './移动广告反欺诈算法挑战赛/'test_df = pd.read_csv(data_path + 'round1_iflyad_anticheat_testdata_feature.txt', delimiter="\t...

2019-07-10 21:45:28 900

原创 Python--线性查找

线性查找是按照顺序一个一个查找，直到找到需要查找的值。def linesearch(arr,x): n = len(arr) for i in range(n): if x == arr[i]: return i return -1arr = ['a','b','w','q','g']x = 'g'result = ...

2019-07-07 22:06:16 543

原创简说机器学习--生成式模型与判别式模型

常见的判别式模型：线性回归、逻辑回归、线性判别、集成学习、支持向量机、神经网络、条件随机场、最大熵模型常见的生成式模型：朴素贝叶斯、隐含马尔科夫模型、限制玻尔兹曼机、高斯混合以及其他混合模型、生成和判别模型的区别？判别式模型不关心数据的分布是什么样的，它直接学习数据决策边界（函数）、或者条件概率P(Y|X)。而生成式模型需要对联合概率分布P(X,Y)建模，并在给定观测数据...

2019-07-07 14:44:40 686

HttpUtils.java

空空如也