- 博客(20)
- 问答 (2)
- 收藏
- 关注
原创 [pandas]方法总结
[pandas]方法总结pandas.rolling 方法pandas.cut 方法用途原型参数含义返回值例子pandas.rename 方法参考pandas.rolling 方法window:表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。pandas offset相关可以参考这里。min_periods:最少需要有值的观测点的数量,对于int类型,默认与window相等。对于
2020-05-27 20:40:55 384
原创 [机器学习-Sklearn]K-means(K均值)学习与总结
K-means总结前言一,k-means算法二,k的选择(仅供参考)1.肘部法则2. 根据实际应用的目的选择K三,代码讲解相同数据下用K-means分成3个簇和4个簇对比前言kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。一,k-means算法在介绍k-means算法之前,先看一个课程中使用k-means对二维数据进行聚类的小例子。下图中(a)是原始样本点,在(b)
2020-05-26 22:57:18 1689
原创 [机器学习-sklearn]K-means之make_blobs聚类数据生成器
make_blobs介绍scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。make_blobs方法:sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random
2020-05-26 20:05:52 2622
原创 [机器学习-sklearn]数据预处理要点总结
数据预处理要点总结1. 为什么要数据预处理2. 数据中存在缺失值2.1 查看数据的完整性(missingno)2.2 KNN填补法1. 为什么要数据预处理在现实背景中,我们的数据集往往存在各种各样的问题,如果不对数据进行预处理,模型的训练就无法开始。而且机器学习中大约70%的时间都要花在数据预处理上。2. 数据中存在缺失值2.1 查看数据的完整性(missingno)missingno 安装 :pip install missingnomissingno提供了一个灵活且易于使用的缺失数据
2020-05-26 17:12:46 639
原创 [机器学习-坑] error: Microsoft Visual C++ 14.0 is required
安装 cvxpy 和 fancyimpute 时pip install cvxpy错误信息SetuptoolsDeprecationWarning)error: Microsoft Visual C++ 14.0 is required. Get it with “Build Tools for Visual Studio”: https://visualstudio.microsoft.com/downloads/ERROR: Failed building wheel for cvxpyFa
2020-05-26 17:00:31 455
原创 [机器学习-sklearn] KNN(k近邻法)学习与总结
KNN 学习与总结引言一,KNN 原理二,KNN算法介绍三, KNN 算法三要素1 距离度量2. K 值的选择四, KNN特点KNN算法的优势和劣势KNN算法优点KNN算法缺点五, KNN 算法实现1. 线性扫描2. kd 树实现3. 球树实现六, sklearn实现KNN算法七, 实战代码引言KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那
2020-05-26 15:51:21 2265
原创 [机器学习-sklearn]鸢尾花Iris数据集
鸢尾花数据集1. 鸢尾花Iris数据集介绍2. Sklearn代码获取Iris2. 描述性统计3. 数据分布情况1. 鸢尾花Iris数据集介绍Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本,每个样本还有4个特征参数(分别是萼片的长宽和花瓣的长宽
2020-05-24 17:25:26 8741
原创 [机器学习-原理篇]支持向量机(SVM)深入理解
支持向量机SVM1. SVM概念2. SVM 解决的问题3. 模型基本思想4. 支持向量机原理1. SVM概念支持向量机(Support Vector Machine,SVM)属于有监督学习模型,主要于解决数据分类问题。通常SVM用于二元分类问题,对于多元分类可将其分解为多个二元分类问题,再进行分类,主要应用场景有图像分类、文本分类、面部识别和垃圾邮件检测等领域。2. SVM 解决的问题3. 模型基本思想以一个二元分类问题为例讲解模型原理。首先假设有两类数据,如图需要找出一条边界来将两类数据
2020-05-22 23:11:49 985
原创 [机器学习-数学]什么是协方差/协方差矩阵/矩阵特征
这里写目录标题1. 均值:2. 标准差:3. 方差:4. 协方差5. 协方差矩阵6. 参考资料1. 均值:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,2. 标准差:标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不
2020-05-22 19:29:13 2839
原创 [机器学习-总结] 什么是准确率, 精确率,召回率和(精确率和召回率的调和平均)
准确率, 精确率与召回率区别与联系1. 背景介绍2. 准确率(????????????????????????????????)3. 精确率(precision)4. 召回率(recall,也称为查全率)1. 背景介绍对于一般分类问题,有训练误差、泛化误差、准确率、错误率等指标对于常见的二分类问题,样本只有两种分类结果,将其定义为正例与反例。那么在进行分类时,对于一个样本,可能出现的分类情况共有四种– 样本为正例,被分类为正例,称为真正类(TP)– 样本为正例,被分类为反例,称为假反类(FN)
2020-05-22 11:03:34 3846 3
原创 [机器学习-Sklearn]决策树学习与总结 (ID3, C4.5, C5.0, CART)
决策树DecisionTreeClassifier学习例子11. 准备数据及读取2. 决策树的特征向量化3. 决策树训练4. 决策树可视化例子11. 准备数据及读取季节时间已过 8 点风力情况要不要赖床springnobreezeyeswinternono windyesautumnyesbreezeyeswinternono windyessummernobreezeyeswinteryesbreezeyes
2020-05-20 17:49:24 6721 1
原创 [机器学习-Sklearn]函数sklearn.feature_extraction.DictVectorizer理解与总结
机器学习-Sklearn之DictVectorizer函数学习函数介绍例子1例子2 - 文件中读数据函数介绍sklearn.featture_extraction.DictVectorizer: 将特征与值的映射字典组成的列表转换成向量。 DictVectorizer通过使用scikit-learn的estimators,将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.sparse矩阵。 当特征的值是字符串时,这个转换器将进行一个二进制One-hot编码。One
2020-05-20 15:56:33 2224 1
原创 [深度学习NPL]word2vector总结与理解
word2vector总结与理解1. 目前成熟的Word2Vector1.1. English Pre-trained word embeddings1.2 Chinese Pre-trained word embeddings2. one_hot编码2.1. 简单对比2.2.优势分析:2.3. 缺点分析:3. 什么是word2vector?4. word2vector怎么做4.1. Skip-Gram& CBOW4.2. word2vector参考资料1. 目前成熟的Word2Vector1.
2020-05-18 22:58:11 1861
原创 [深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)
基于LSTM的文本情感分析1. 数据下载2. 训练数据介绍3. 用到Word2Vector介绍wordsList.npy介绍wordVectors.npy介绍4 数据预处理4.1 . generate_train_data函数4.2. generate_embedding_matrix 函数4.3. test_load 函数, 验证产生结果 **(trainData.npz, small_word_index.npy, embedding_matrix.npy)**5 训练模型与测试模型6. 预测7. 参
2020-05-15 17:59:53 10858 23
原创 [深度学习TF2][RNN-NPL数据预处理] -Tokenizer函数
TF2-Tokenizer函数1. 背景介绍2. 函数Tokenizer 介绍2.1 设置要保留多少个高频词汇,2.2 训练数据集, 得到一个统计信息2.3 把单词转化为词向量2.4 把每一条数据(比如电影评论)甚至最大单词数量。3. 完整测试代码1. 背景介绍因为现在Tensorflow2.x 以后你要用RNN比如LSTM训练你的数据, 比如你要训练一个情感二分类。那么数据要做预处理,因为你喂给你的模型的数据都是词向量了而不是字母单词或汉字。那么怎么把你的单词或汉字转化为词向量呢。就要用到Toke
2020-05-12 21:37:17 1437
原创 [深度学习TF2] 梯度带(GradientTape)
TF梯度带GradientTape背景介绍tf.GradientTape函数的参数介绍例子1 - persistent =False and watch_accessed_variables=True ,也就是默认值例子2 - persistent =True and watch_accessed_variables=True,例子3 - persistent =True and watch_ac...
2020-05-05 23:44:29 2358
原创 [深度学习] tensorflow1.x和tensorflow2.x对比与总结
tensorflow1.x和tensorflow2.x对比与总结1. 背景介绍2. 易于使用(Ease of use)3. 使用Eager模式(Eager Execution)4. 建立模型和部署变得容易(Model Building and deploying made easy)5. 简化了数据管道(The Data pipeline simplified)6. 一些重要的点是:7. 总结参考...
2020-05-05 17:11:31 13553
原创 [深度学习]-基于tensorflow的CNN和RNN-LSTM文本情感分析对比
基于tensorflow的CNN和LSTM文本情感分析对比数据集介绍参考文献数据集介绍参考文献https://blog.csdn.net/qq_33547191/article/details/86075275https://www.oreilly.com/content/perform-sentiment-analysis-with-lstms-using-tensorflow/...
2020-05-03 17:01:03 4078 5
原创 深度学习-TF函数-layers.concatenate用法
环境: tensorfow 2.*def concatenate(inputs, axis=-1, **kwargs):axis=n表示从第n个维度进行拼接,对于一个三维矩阵,axis的取值可以为[-3, -2, -1, 0, 1, 2]。代码import numpy as npimport tensorflow as tft1 = tf.Variable(np.array([[[1...
2020-05-03 14:22:34 10733
原创 深度学习-函数-tf.nn.embedding_lookup 与tf.keras.layers.Embedding
embedding_lookup函数用法ids只有一行如果ids是多行关于np.random.RandomState、np.random.rand、np.random.random、np.random_sample参考https://blog.csdn.net/lanchunhui/article/details/50405670tf.nn.embedding_lookup函数的用法主要是选取...
2020-05-02 15:21:21 3200
空空如也
深度机器学习的数据集为什么一定要2万以上的样本?
2021-01-12
深度机器学习分类问题中,回归率怎么才能提高?
2021-01-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人