自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 资源 (10)
  • 收藏
  • 关注

原创 preprocessing.LabelBinarizer()返回的结果不是one-hot怎么解决?

sklearn

2022-09-15 14:25:27 285 2

原创 hive中使用正则表达式匹配数字

匹配整数\d 是匹配一个数字(0到9)\d 前面多了第一个\ 是为了在程序中转义第二个\+表示 1个或多个组合起来\d+ 就表示多个数字,形如 12、44、6763……在hive中判断字符是不是数字,还需要增加首尾限制:^\d+$判断 id 字段是不是数组,则使用语句:id rlike ‘^\d+$’ 判断即可匹配小数\. 匹配一个小数点\d+\.\d+ 就表示小数,形如12.334、0.12、87.343……在hive中判断字符是不是小数,还需要增加首尾限制:^\d+\.\d+$

2022-04-15 11:09:09 9701 2

原创 时间片分流专利

https://xueshu.baidu.com/usercenter/paper/show?paperid=1e410ed0pu3j0jn03t0n00c0fc738579

2022-03-11 11:55:11 372 1

原创 Python使用linux命令调用Jupyter文件

https://pypi.org/project/runipy/

2022-03-01 11:38:02 556 1

原创 社招面经记录

标题 Xgboost做了什么优化,有什么优缺点?deep&wide,deep和wide部分分别适合什么类型的特征,底层原理?为什么简历里面deep&wide效果不如deep正则化L1和L2的区别正则化的作用是针对过拟合提出,主要是限制模型权重,其中L1正则化会让更多的权重为0,即产生稀疏模型,L2正则化会权重接近0。L1正则先验服从拉普拉斯分布,L2服从高斯分布。...

2021-10-29 22:29:22 189

原创 窗口函数preceding和following字段

窗口函数经常和下面的用法配合使用:range between 3 preceding and -1 following7 preceding表示按照排序后到当前位置前7个-1 following表示按照排序后到当前位置后面-1个举例说明:indexvalue120221322423524使用语句order by index range between 2 preceding and -1 following用来计算value均值时,该语

2021-10-11 15:28:18 3149 1

原创 一文解决二分查找类笔试题

优质博客:https://www.cnblogs.com/kyoner/p/11080078.html看完了没有搞不定的二分查找

2021-08-29 15:59:44 129

原创 一、使用requests模块post请求爬取有道翻译结果

一、先直接上代码key是要翻译的词,输出是翻译结果:# -*- coding:utf-8 -*-# @FileName :1.4有道翻译_post请求.py# @Time :2021/8/15 19:39# @Author :象牙塔小明import requestsimport reurl = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"key = "学习"for

2021-08-15 20:26:44 1058

原创 为什么需要将数据集划分成训练集、验证集和测试集三部分?

评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练 模型,在验证数据上评估模型。一旦找到了最佳参数,就在测试数据上最后测试一次。你可能会问,为什么不是两个集合:一个训练集和一个测试集?在训练集上训练模型,然后在测试集上评估模型。这样简单得多!原因在于开发模型时总是需要调节模型配置,比如选择层数或每层大小[这叫作模型的超 参数(hyperparameter),以便与模型参数(即权重)区分开]。这个调节过程需要使用模型在验 证数据上的性能作为反馈信号。这个调节过程本质上就是一种学

2021-02-27 12:36:26 12031 2

转载 sklearn与机器学习系列专题之降维(二)一文弄懂LDA特征筛选&降维

目录1.PCA算法优缺点2.LDA算法简介3.枯燥又简洁的理论推导4.python实战LDA5.下篇预告1.PCA算法优缺点在上一篇推文中,我们详解了PCA算法。这是机器学习中最为常用的降维方法,能降低算法的计算开销,使得数据集更容易处理,且完全无参数的限制。但是,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却很难按照预想的方法对处理过程进行干预,可能达不到预期的效果,在非高斯分布的情况下,PCA方法得出的主元可能也并不是最优的。2.LDA算法简介这时候,就要线性判别分析降维(Line

2020-11-14 23:05:31 956

转载 sklearn与机器学习系列专题之降维(一)一文弄懂PCA特征筛选&降维

伴随着通信与互联网技术的不断发展,人们收集和获取数据的能力越来越强,而这些数据已呈现出维数高、规模大和结构复杂等特点,当数据量非常大时,会面临维度灾难,即:1.在高维情况下,数据样本稀疏;2.涉及距离、内积的计算变得困难。缓解灾难的一个重要途径就是降维。本篇博客主要以PCA为例,讲解sklearn实现降维。1.标准PCA如下图所示,我们用两个特征——一个是attack、一个是defense来描述样本。作两条垂直的参考线,方差相差很大。在方差较大的方向上,所包含的信息就较多。降维要尽可能保持原始数据的

2020-11-14 22:32:14 652

原创 sklearn中train_test_split的用法

train_test_split的用法注意:旧版本的导入该模块是:from sklearn.cross_validation import train_test_split新版本改成了:from sklearn.model_selection import train_test_split作用:train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。格式:X_train, X_test, y_train, y_test =cr

2020-10-18 23:59:44 2065 6

原创 封装Sklearn中roc_curve函数画ROC曲线并使用roc_auc_score函数计算AUC

画ROC曲线封装函数# 画ROC曲线函数def plot_roc_curve(y_true, y_score): """ y_true:真实值 y_score:预测概率。注意:不要传入预测label!!! """ from sklearn.metrics import roc_curve import matplotlib.pyplot as plt fpr,tpr,threshold = roc_curve(y_true, y_score, po

2020-10-18 23:43:43 4122 6

原创 pandas的cut,qcut函数的使用和区别

https://zhuanlan.zhihu.com/p/68194655

2020-09-06 09:43:45 476

原创 标签转换为独热码的三种方法Python

方法一:def to_one_hot(label, dimension=46):results = np.zeros((len(label), dimension))for i, label in enumerate(label):results[i, label] = 1.return resultsone_hot_train_label = to_one_hot(train_labels)one_hot_test_label = to_one_hot(test_labels)print(

2020-06-07 22:42:00 5538 1

原创 pandas数据聚合方法—agg方法

方法描述count计算分组中非NA值的数量sum计算非NA值的和mean计算非NA值的平均值median计算非NA值的算术中位数std、var计算非NA值标准差和方差min、max获得非NA值的最小和最大值prod计算非NA值的积first、last获得第一个和最后一个非NA值例如:...

2020-01-09 19:33:25 1606

原创 DataFrame和Series转换为ndarray的差别

numpy中的ndarray与pandas的Series和DataFrame之间的相互转换Series转换为ndarray是一个一维数组DataFrame转换为ndarray是一个多维数组

2020-01-07 12:59:38 1523

原创 一文搞懂pandas读取保存合并excel对列名index的常用操作

pandas读取excel设置第一列为序号设置参数index_col=0可以设置读取excel时第一列为序号,否则会自动添加一列序号从0开始:data = pd.read_excel(file_path, index_col=0)pandas读取excel设置第一行为列名默认参数 header=0 会设置读取的excel第一行为列名, header=None会新建一行从0开始的序号列名:...

2019-12-17 22:39:24 5295

原创 Sklearn遇到的一些bug记录

例如:如下案例有两个错误from sklearn.datasets import load_bostonfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2X_boston, y_boston = load_boston(return_X_y=True)K_...

2019-12-09 21:51:37 1178

原创 机器学习sklearn数据预处理:归一化-标准化/区间缩放-调整尺度/正态化

在sklean的预处理方法中主要有三种,每一种都有函数方法和类方法两种使用方法:归一化-标准化:normalize()函数/Normalizer()类区间缩放-调整尺度: minmax_scale函数/MinMaxScaler()类正态化:scale()函数/StandardScaler()类归一化/标准化处理将每一行数据的向量模长(欧氏距离)处理成1.方法一:normalize()...

2019-12-03 16:06:57 2357

原创 scikit-learn实现决策树并用graphviz/pydotplus实现可视化

1. 用anaconda安装pydotplus要说一下的是在python3.5以前用pydot。python3.5及以后pydot已经停止开发了,要用pydotplus.此博客用的python3.7版本。在anaconda中安装pydotplus可能安装不上:如图所示,没办法点击安装,这时候打开terminal:输入pip install pydotplus 和 pip instal...

2019-11-25 11:45:35 1601 2

原创 Python计算一个数组中True或False的个数

例如数组:arr = [True, False, False]计算True和False的个数:import numpy as npprint('True个数:', np.sum(arr!=0))print('False个数:', np.sum(arr==0))输出:12

2019-11-16 21:24:25 29097 4

原创 numpy.random.choice函数详解

函数参数:numpy.random.choice(a, size=None, replace=True, p=None)参数解释a一维数组或整数。如果是个数组,则新的样本元素来自这个数组;如果是整数,随机样本来自np.range(a)size单数或元组。如果是单数,输出该数量元素的一维数组;如果是元组,(m, n, k),则生成mnk个样本,排列方式与元组相同。...

2019-11-13 10:55:46 11356 1

原创 Python中的np.random.binomial()二项式分布函数详解

看了很多博客,感觉很多人对np.random.binomial()的解释都写得不是很清楚,或者写错了,或者写得很模糊费解。特别是对该函数的参数解释非常的模糊、不清楚。本文以二项式分布的理解为起点,对该函数进行解释,欢迎讨论指正。二项式分布二项分布是由伯努利提出的概念,指的是重复n次(注意:这里的n和binomial()函数参数n不是一个意思)独立的伯努利试验,如果事件X服从二项式分布,则可以表...

2019-11-06 22:35:55 32777 11

原创 python让scatter能够使不同类别的点有不同的颜色、大小和形状

python自带的scatter函数参数中颜色和大小可以输入列表进行控制,即可以让不同的点有不同的颜色和大小,但是只能是同一种形状。例如例一:import numpy as npimport matplotlib.pyplot as pltdef plotMatrixPoint(Mat, Label): """ :param Mat: 二维点坐标矩阵 :param...

2019-10-21 17:14:34 25859 1

原创 (二)机器学习实践Python3-决策树ID3的一个简单案例

理论部分参考博客机器学习实战-决策树"""ID3决策树"""from math import logfrom operator import itemgetterdef calShannonEnt(dataSet): """ 计算dataset的信息熵 :param dataSet: :return: """ data_num = l...

2019-10-15 17:16:50 197

原创 (一)机器学习实践Python3-KNN的一个简单案例

import numpy as npfrom operator import itemgetterdef creat_dataset(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels...

2019-10-04 18:50:11 316

原创 快速排序算法最好懂的代码(两种C++写法带备注和分析)

快速排序简单理解(实现原理以及不稳定性)更正一下,上面的博客中,不是将数字和flag 的值进行交换,flag是不变的,应该是和与flag值相等的哨兵值互换。# include<vector># include <iostream>//# include<algorithm>using namespace std;//////快速排序算法写法一:/...

2019-08-26 20:40:45 413

原创 pyinstaller打包有pandas和numpy库过程中遇到的bug及处理

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xce in position 130参考博客:https://blog.csdn.net/qq_41185868/article/details/80599390Cannot find existing PyQt5 plugin directories参考博客:https://blog...

2019-07-27 08:29:49 4432

原创 python可视化有关的博客推荐

Python数据可视化—seaborn简介和实例

2019-07-12 21:15:02 275

转载 机器学习优秀博客推荐

线性回归(Linear Regression)

2019-07-12 17:57:43 310

转载 深度学习中过拟合与防止过拟合的方法

1.什么是过拟合?过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。2.过拟合产生的原因?(1)在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据的分布进行估计的时候(2)权值学习迭代次数...

2019-01-21 21:27:36 967

转载 深度学习中常用的代价函数

1.二次代价函数(quadratic cost):其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。为简单起见,使用一个样本为例进行说明,此时二次代价函数为:假如我们使用梯度下降法(Gradient descent)来调整权值参数的大小,权值w和偏置b的梯度推导如下:其中,z表示神经元的输入,σ表示激活函数。w和b的梯度跟激活函数的梯度成正比,激活函数的...

2019-01-21 21:05:27 555

原创 TensorFlow识别MNIST手写数据集

# 载入数据集mnist = input_data.read_data_sets("MNIST_data", one_hot=True)# 每个批次的大小batch_size = 100# 计算一共有多少个批次n_batch = mnist.train.num_examples // batch_size # //整除# 定义两个placeholderx = tf.placehol...

2019-01-21 20:37:33 386

原创 TensorFlow中tf.argmax()的用法

该函数可以接受两个参数arg_max(input, dimension),第一个参数是矩阵或者是列表

2019-01-21 20:15:51 796

原创 tensorflow入门案例及解析

案例一:m1 = tf.constant([[3, 3]]) # 定义一个一行两列的矩阵,op1m2 = tf.constant([[2], [3]]) # 定义一个两行一列的矩阵,op2product = tf.matmul(m1, m2) # 创建一个矩阵乘法,把m1和m2传入,op3# 定义一个会话,启动默认图 # 方法一sess = tf.Session()# 调用se...

2019-01-14 11:09:43 551

原创 【踩坑】Windows 上 Tensorboard入门使用及显示空白/乱码/没有数据的问题

tensorboard的使用以及Windows 上 Tensorboard显示空白/乱码/没有数据的问题的解决方法

2019-01-11 21:31:25 5718 7

原创 Pycharm批量注释代码和取消注释代码

注释代码和取消注释代码的快捷键都一样ctrl + /

2018-12-27 15:25:31 23744

原创 python中dtype的用法

https://blog.csdn.net/sinat_36458870/article/details/78946053

2018-12-04 22:57:16 38560

原创 <2>Scikit-Learn(sklearn)中的LinearRegression(线性回归)对波士顿房价进行预测

线性回归y=wx+bfrom sklearn import datasetsfrom sklearn.linear_model import LinearRegressionloaded_data = datasets.load_boston()data_X = loaded_data.datadata_y = loaded_data.targetmodel = LinearRegr...

2018-12-04 17:45:51 2480

graphviz_2.38.zip

图形可视化得一个安装包graphviz,老版本python(3.5以前)和pydot配合使用,新版本和pydotplus配合使用。

2019-11-25

感知原始形式python3源代码

压缩包内有训练数据,感知机训练需要的各种函数,以及封住好的可视化、训练代码。

2018-11-07

Softmax regression逻辑回归解决多线性分类

逻辑回归一般只能解决二分问题,但是进行扩展之后可以解决多线性分类问题。这是一个完整的Softmax regression解决多线性分类的源代码,python3编码,可直接运行,有输入数据和预测数据的可视化编程。还训练部分和测试部分的源代码进行了封装,可直接运行。

2018-11-03

逻辑回归训练测试的完整代码和数据集

内含完整的逻辑回归数据集,已经逻辑回归训练,训练完成后的模型测试部分(包括代码和完成数据集),用python3编码,可直接运行。训练完成后可直接显示点的颜色和分布,以及训练得到的直线。

2018-10-30

逻辑回归Python源代码

内含有逻辑回归的源代码是数据集,使用Python3编码,有封装好的逻辑回归所需要的各种函数,适合新手学习。

2018-10-29

多网格(MultiGrid)算法文档

MultiGrid多网格算法的详细介绍,包括理论介绍和相关文献引用等等

2018-09-20

C++多线程编程

C++ 多线程编程文档。包括对进程和线程的概念、线程的创建、终止等等详细的介绍,以及案例。

2018-09-20

Optimal iso planar cutting direction based on machine kinematic metric

Optimal iso-planar cutting direction based on machine kinematic metric: A differential geometry method for freeform surface finishing tool path computation

2018-06-01

Python库matplotlib

python很方便的matplotlib库,能够画各种二维图,使用方便

2018-06-01

数学建模中应当掌握的十类算法

数学建模中十类应当掌握的算法

2017-05-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除