象牙塔小明-CSDN博客

原创 preprocessing.LabelBinarizer()返回的结果不是one-hot怎么解决？

sklearn

2022-09-15 14:25:27 347 1

原创 hive中使用正则表达式匹配数字

匹配整数\d 是匹配一个数字(0到9)\d 前面多了第一个\ 是为了在程序中转义第二个\+表示 1个或多个组合起来\d+ 就表示多个数字，形如 12、44、6763……在hive中判断字符是不是数字，还需要增加首尾限制：^\d+$判断 id 字段是不是数组，则使用语句：id rlike ‘^\d+$’ 判断即可匹配小数\. 匹配一个小数点\d+\.\d+ 就表示小数，形如12.334、0.12、87.343……在hive中判断字符是不是小数，还需要增加首尾限制：^\d+\.\d+$

2022-04-15 11:09:09 10391 2

原创时间片分流专利

https://xueshu.baidu.com/usercenter/paper/show?paperid=1e410ed0pu3j0jn03t0n00c0fc738579

2022-03-11 11:55:11 447 2

原创 Python使用linux命令调用Jupyter文件

https://pypi.org/project/runipy/

2022-03-01 11:38:02 607 1

原创社招面经记录

标题 Xgboost做了什么优化，有什么优缺点？deep&wide，deep和wide部分分别适合什么类型的特征，底层原理？为什么简历里面deep&wide效果不如deep正则化L1和L2的区别正则化的作用是针对过拟合提出，主要是限制模型权重，其中L1正则化会让更多的权重为0，即产生稀疏模型，L2正则化会权重接近0。L1正则先验服从拉普拉斯分布，L2服从高斯分布。...

2021-10-29 22:29:22 225

原创窗口函数preceding和following字段

窗口函数经常和下面的用法配合使用：range between 3 preceding and -1 following7 preceding表示按照排序后到当前位置前7个-1 following表示按照排序后到当前位置后面-1个举例说明：indexvalue120221322423524使用语句order by index range between 2 preceding and -1 following用来计算value均值时，该语

2021-10-11 15:28:18 3496 1

原创一文解决二分查找类笔试题

优质博客：https://www.cnblogs.com/kyoner/p/11080078.html看完了没有搞不定的二分查找

2021-08-29 15:59:44 173

原创一、使用requests模块post请求爬取有道翻译结果

一、先直接上代码key是要翻译的词，输出是翻译结果：# -*- coding:utf-8 -*-# @FileName :1.4有道翻译_post请求.py# @Time :2021/8/15 19:39# @Author :象牙塔小明import requestsimport reurl = "https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"key = "学习"for

2021-08-15 20:26:44 1231

原创为什么需要将数据集划分成训练集、验证集和测试集三部分？

评估模型的重点是将数据划分为三个集合：训练集、验证集和测试集。在训练数据上训练模型，在验证数据上评估模型。一旦找到了最佳参数，就在测试数据上最后测试一次。你可能会问，为什么不是两个集合：一个训练集和一个测试集？在训练集上训练模型，然后在测试集上评估模型。这样简单得多！原因在于开发模型时总是需要调节模型配置，比如选择层数或每层大小［这叫作模型的超参数（hyperparameter），以便与模型参数（即权重）区分开］。这个调节过程需要使用模型在验证数据上的性能作为反馈信号。这个调节过程本质上就是一种学

2021-02-27 12:36:26 12998 3

转载 sklearn与机器学习系列专题之降维（二）一文弄懂LDA特征筛选&降维

目录1.PCA算法优缺点2.LDA算法简介3.枯燥又简洁的理论推导4.python实战LDA5.下篇预告1.PCA算法优缺点在上一篇推文中，我们详解了PCA算法。这是机器学习中最为常用的降维方法，能降低算法的计算开销，使得数据集更容易处理，且完全无参数的限制。但是，如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却很难按照预想的方法对处理过程进行干预，可能达不到预期的效果，在非高斯分布的情况下，PCA方法得出的主元可能也并不是最优的。2.LDA算法简介这时候，就要线性判别分析降维（Line

2020-11-14 23:05:31 1085

转载 sklearn与机器学习系列专题之降维（一）一文弄懂PCA特征筛选&降维

伴随着通信与互联网技术的不断发展，人们收集和获取数据的能力越来越强，而这些数据已呈现出维数高、规模大和结构复杂等特点，当数据量非常大时，会面临维度灾难，即:1.在高维情况下，数据样本稀疏；2.涉及距离、内积的计算变得困难。缓解灾难的一个重要途径就是降维。本篇博客主要以PCA为例，讲解sklearn实现降维。1.标准PCA如下图所示，我们用两个特征——一个是attack、一个是defense来描述样本。作两条垂直的参考线，方差相差很大。在方差较大的方向上，所包含的信息就较多。降维要尽可能保持原始数据的

2020-11-14 22:32:14 799

原创 sklearn中train_test_split的用法

train_test_split的用法注意：旧版本的导入该模块是：from sklearn.cross_validation import train_test_split新版本改成了：from sklearn.model_selection import train_test_split作用：train_test_split函数用于将矩阵随机划分为训练子集和测试子集，并返回划分好的训练集测试集样本和训练集测试集标签。格式：X_train, X_test, y_train, y_test =cr

2020-10-18 23:59:44 2198 6

原创封装Sklearn中roc_curve函数画ROC曲线并使用roc_auc_score函数计算AUC

画ROC曲线封装函数# 画ROC曲线函数def plot_roc_curve(y_true, y_score): """ y_true:真实值 y_score：预测概率。注意：不要传入预测label！！！ """ from sklearn.metrics import roc_curve import matplotlib.pyplot as plt fpr,tpr,threshold = roc_curve(y_true, y_score, po

2020-10-18 23:43:43 4320 6

原创 pandas的cut，qcut函数的使用和区别

https://zhuanlan.zhihu.com/p/68194655

2020-09-06 09:43:45 525

原创标签转换为独热码的三种方法Python

方法一：def to_one_hot(label, dimension=46):results = np.zeros((len(label), dimension))for i, label in enumerate(label):results[i, label] = 1.return resultsone_hot_train_label = to_one_hot(train_labels)one_hot_test_label = to_one_hot(test_labels)print(

2020-06-07 22:42:00 5775 1

原创 pandas数据聚合方法—agg方法

方法描述count计算分组中非NA值的数量sum计算非NA值的和mean计算非NA值的平均值median计算非NA值的算术中位数std、var计算非NA值标准差和方差min、max获得非NA值的最小和最大值prod计算非NA值的积first、last获得第一个和最后一个非NA值例如：...

2020-01-09 19:33:25 1723

原创 DataFrame和Series转换为ndarray的差别

numpy中的ndarray与pandas的Series和DataFrame之间的相互转换Series转换为ndarray是一个一维数组DataFrame转换为ndarray是一个多维数组

2020-01-07 12:59:38 1563

原创一文搞懂pandas读取保存合并excel对列名index的常用操作

pandas读取excel设置第一列为序号设置参数index_col=0可以设置读取excel时第一列为序号，否则会自动添加一列序号从0开始：data = pd.read_excel(file_path, index_col=0)pandas读取excel设置第一行为列名默认参数 header=0 会设置读取的excel第一行为列名， header=None会新建一行从0开始的序号列名：...

2019-12-17 22:39:24 6032 1

原创 Sklearn遇到的一些bug记录

例如：如下案例有两个错误from sklearn.datasets import load_bostonfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2X_boston, y_boston = load_boston(return_X_y=True)K_...

2019-12-09 21:51:37 1252

原创机器学习sklearn数据预处理：归一化-标准化/区间缩放-调整尺度/正态化

在sklean的预处理方法中主要有三种,每一种都有函数方法和类方法两种使用方法：归一化-标准化：normalize()函数/Normalizer()类区间缩放-调整尺度: minmax_scale函数/MinMaxScaler()类正态化：scale()函数/StandardScaler()类归一化/标准化处理将每一行数据的向量模长（欧氏距离）处理成1.方法一：normalize()...

2019-12-03 16:06:57 2607

原创 scikit-learn实现决策树并用graphviz/pydotplus实现可视化

1. 用anaconda安装pydotplus要说一下的是在python3.5以前用pydot。python3.5及以后pydot已经停止开发了，要用pydotplus.此博客用的python3.7版本。在anaconda中安装pydotplus可能安装不上：如图所示，没办法点击安装，这时候打开terminal：输入pip install pydotplus 和 pip instal...

2019-11-25 11:45:35 1761 2

原创 Python计算一个数组中True或False的个数

例如数组：arr = [True, False, False]计算True和False的个数：import numpy as npprint('True个数：'， np.sum(arr!=0))print('False个数：'， np.sum(arr==0))输出：12

2019-11-16 21:24:25 30227 4

原创 numpy.random.choice函数详解

函数参数：numpy.random.choice(a, size=None, replace=True, p=None)参数解释a一维数组或整数。如果是个数组，则新的样本元素来自这个数组；如果是整数，随机样本来自np.range(a)size单数或元组。如果是单数，输出该数量元素的一维数组；如果是元组，(m, n, k)，则生成mnk个样本，排列方式与元组相同。...

2019-11-13 10:55:46 11547 1

原创 Python中的np.random.binomial()二项式分布函数详解

看了很多博客，感觉很多人对np.random.binomial()的解释都写得不是很清楚，或者写错了，或者写得很模糊费解。特别是对该函数的参数解释非常的模糊、不清楚。本文以二项式分布的理解为起点，对该函数进行解释，欢迎讨论指正。二项式分布二项分布是由伯努利提出的概念，指的是重复n次（注意：这里的n和binomial()函数参数n不是一个意思）独立的伯努利试验，如果事件X服从二项式分布，则可以表...

2019-11-06 22:35:55 34905 13

原创 python让scatter能够使不同类别的点有不同的颜色、大小和形状

python自带的scatter函数参数中颜色和大小可以输入列表进行控制，即可以让不同的点有不同的颜色和大小，但是只能是同一种形状。例如例一：import numpy as npimport matplotlib.pyplot as pltdef plotMatrixPoint(Mat, Label): """ :param Mat: 二维点坐标矩阵 :param...

2019-10-21 17:14:34 26380 2

原创（二）机器学习实践Python3-决策树ID3的一个简单案例

理论部分参考博客机器学习实战-决策树"""ID3决策树"""from math import logfrom operator import itemgetterdef calShannonEnt(dataSet): """ 计算dataset的信息熵 :param dataSet: :return: """ data_num = l...

2019-10-15 17:16:50 223

原创（一）机器学习实践Python3-KNN的一个简单案例

import numpy as npfrom operator import itemgetterdef creat_dataset(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) labels = ['A', 'A', 'B', 'B'] return group, labels...

2019-10-04 18:50:11 378

原创快速排序算法最好懂的代码（两种C++写法带备注和分析）

快速排序简单理解（实现原理以及不稳定性）更正一下，上面的博客中，不是将数字和flag 的值进行交换，flag是不变的，应该是和与flag值相等的哨兵值互换。# include<vector># include <iostream>//# include<algorithm>using namespace std;//////快速排序算法写法一：/...

2019-08-26 20:40:45 460

原创 pyinstaller打包有pandas和numpy库过程中遇到的bug及处理

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xce in position 130参考博客：https://blog.csdn.net/qq_41185868/article/details/80599390Cannot find existing PyQt5 plugin directories参考博客：https://blog...

2019-07-27 08:29:49 4544

原创 python可视化有关的博客推荐

Python数据可视化—seaborn简介和实例

2019-07-12 21:15:02 305

转载机器学习优秀博客推荐

线性回归（Linear Regression）

2019-07-12 17:57:43 361

转载深度学习中过拟合与防止过拟合的方法

1.什么是过拟合？过拟合（overfitting）是指在模型参数拟合过程中的问题，由于训练数据包含抽样误差，训练时，复杂的模型将抽样误差也考虑在内，将抽样误差也进行了很好的拟合。具体表现就是最终模型在训练集上效果好；在测试集上效果差。模型泛化能力弱。2.过拟合产生的原因？（1）在对模型进行训练时，有可能遇到训练数据不够，即训练数据无法对整个数据的分布进行估计的时候（2）权值学习迭代次数...

2019-01-21 21:27:36 1078

转载深度学习中常用的代价函数

1.二次代价函数(quadratic cost)：其中，C表示代价函数，x表示样本，y表示实际值，a表示输出值，n表示样本的总数。为简单起见，使用一个样本为例进行说明，此时二次代价函数为：假如我们使用梯度下降法(Gradient descent)来调整权值参数的大小，权值w和偏置b的梯度推导如下：其中，z表示神经元的输入，σ表示激活函数。w和b的梯度跟激活函数的梯度成正比，激活函数的...

2019-01-21 21:05:27 593

原创 TensorFlow识别MNIST手写数据集

# 载入数据集mnist = input_data.read_data_sets("MNIST_data", one_hot=True)# 每个批次的大小batch_size = 100# 计算一共有多少个批次n_batch = mnist.train.num_examples // batch_size # //整除# 定义两个placeholderx = tf.placehol...

2019-01-21 20:37:33 429

原创 TensorFlow中tf.argmax()的用法

该函数可以接受两个参数arg_max(input, dimension)，第一个参数是矩阵或者是列表

2019-01-21 20:15:51 867

原创 tensorflow入门案例及解析

案例一：m1 = tf.constant([[3, 3]]) # 定义一个一行两列的矩阵，op1m2 = tf.constant([[2], [3]]) # 定义一个两行一列的矩阵，op2product = tf.matmul(m1, m2) # 创建一个矩阵乘法，把m1和m2传入，op3# 定义一个会话，启动默认图 # 方法一sess = tf.Session()# 调用se...

2019-01-14 11:09:43 606

原创【踩坑】Windows 上 Tensorboard入门使用及显示空白/乱码/没有数据的问题

tensorboard的使用以及Windows 上 Tensorboard显示空白/乱码/没有数据的问题的解决方法

2019-01-11 21:31:25 5949 7

原创 Pycharm批量注释代码和取消注释代码

注释代码和取消注释代码的快捷键都一样ctrl + /

2018-12-27 15:25:31 23944

原创 python中dtype的用法

https://blog.csdn.net/sinat_36458870/article/details/78946053

2018-12-04 22:57:16 38786

原创 <2>Scikit-Learn（sklearn）中的LinearRegression（线性回归）对波士顿房价进行预测

线性回归y=wx+bfrom sklearn import datasetsfrom sklearn.linear_model import LinearRegressionloaded_data = datasets.load_boston()data_X = loaded_data.datadata_y = loaded_data.targetmodel = LinearRegr...

2018-12-04 17:45:51 2555

C++多线程编程

C++ 多线程编程文档。包括对进程和线程的概念、线程的创建、终止等等详细的介绍，以及案例。

2018-09-20

多网格（MultiGrid）算法文档

MultiGrid多网格算法的详细介绍，包括理论介绍和相关文献引用等等

2018-09-20

Optimal iso planar cutting direction based on machine kinematic metric

Optimal iso-planar cutting direction based on machine kinematic metric: A differential geometry method for freeform surface finishing tool path computation

2018-06-01