2020年05月_茫茫人海一粒沙

原创 [pandas]方法总结

[pandas]方法总结pandas.rolling 方法pandas.cut 方法用途原型参数含义返回值例子pandas.rename 方法参考pandas.rolling 方法window：表示时间窗的大小，注意有两种形式（int or offset）。如果使用int，则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型，表示时间窗的大小。pandas offset相关可以参考这里。min_periods：最少需要有值的观测点的数量，对于int类型，默认与window相等。对于

2020-05-27 20:40:55 384

原创 [机器学习-Sklearn]K-means(K均值)学习与总结

K-means总结前言一，k-means算法二，k的选择（仅供参考）1.肘部法则2. 根据实际应用的目的选择K三，代码讲解相同数据下用K-means分成3个簇和4个簇对比前言kmeans是最简单的聚类算法之一，但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。一，k-means算法在介绍k-means算法之前，先看一个课程中使用k-means对二维数据进行聚类的小例子。下图中（a）是原始样本点，在（b）

2020-05-26 22:57:18 1689

原创 [机器学习-sklearn]K-means之make_blobs聚类数据生成器

make_blobs介绍scikit中的make_blobs方法常被用来生成聚类算法的测试数据，直观地说，make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据，这些数据可用于测试聚类算法的效果。make_blobs方法:sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random

2020-05-26 20:05:52 2622

原创 [机器学习-sklearn]数据预处理要点总结

数据预处理要点总结1. 为什么要数据预处理2. 数据中存在缺失值2.1 查看数据的完整性（missingno）2.2 KNN填补法1. 为什么要数据预处理在现实背景中，我们的数据集往往存在各种各样的问题，如果不对数据进行预处理，模型的训练就无法开始。而且机器学习中大约70%的时间都要花在数据预处理上。2. 数据中存在缺失值2.1 查看数据的完整性（missingno）missingno 安装：pip install missingnomissingno提供了一个灵活且易于使用的缺失数据

2020-05-26 17:12:46 639

原创 [机器学习-坑] error: Microsoft Visual C++ 14.0 is required

安装 cvxpy 和 fancyimpute 时pip install cvxpy错误信息SetuptoolsDeprecationWarning)error: Microsoft Visual C++ 14.0 is required. Get it with “Build Tools for Visual Studio”: https://visualstudio.microsoft.com/downloads/ERROR: Failed building wheel for cvxpyFa

2020-05-26 17:00:31 455

原创 [机器学习-sklearn] KNN(k近邻法)学习与总结

KNN 学习与总结引言一，KNN 原理二，KNN算法介绍三， KNN 算法三要素1 距离度量2. K 值的选择四， KNN特点KNN算法的优势和劣势KNN算法优点KNN算法缺点五， KNN 算法实现1. 线性扫描2. kd 树实现3. 球树实现六， sklearn实现KNN算法七，实战代码引言KNN可以说是最简单的分类算法之一，同时，它也是最常用的分类算法之一，注意KNN算法是有监督学习中的分类算法，它看起来和另一个机器学习算法Kmeans有点像（Kmeans是无监督学习算法），但却是有本质区别的。那

2020-05-26 15:51:21 2265

原创 [机器学习-sklearn]鸢尾花Iris数据集

鸢尾花数据集1. 鸢尾花Iris数据集介绍2. Sklearn代码获取Iris2. 描述性统计3. 数据分布情况1. 鸢尾花Iris数据集介绍Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集，可以作为判别分析（discriminant analysis）的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本，每个样本还有4个特征参数（分别是萼片的长宽和花瓣的长宽

2020-05-24 17:25:26 8741

原创 [机器学习-原理篇]支持向量机（SVM)深入理解

支持向量机SVM1. SVM概念2. SVM 解决的问题3. 模型基本思想4. 支持向量机原理1. SVM概念支持向量机（Support Vector Machine，SVM）属于有监督学习模型，主要于解决数据分类问题。通常SVM用于二元分类问题，对于多元分类可将其分解为多个二元分类问题，再进行分类，主要应用场景有图像分类、文本分类、面部识别和垃圾邮件检测等领域。2. SVM 解决的问题3. 模型基本思想以一个二元分类问题为例讲解模型原理。首先假设有两类数据，如图需要找出一条边界来将两类数据

2020-05-22 23:11:49 985

原创 [机器学习-数学]什么是协方差/协方差矩阵/矩阵特征

这里写目录标题1. 均值：2. 标准差：3. 方差：4. 协方差5. 协方差矩阵6. 参考资料1. 均值：均值描述的是样本集合的中间点，它告诉我们的信息是有限的，2. 标准差：标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但显然两个集合的差别是很大的，计算两者的标准差，前者是8.3后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不

2020-05-22 19:29:13 2839

原创 [机器学习-总结] 什么是准确率, 精确率，召回率和(精确率和召回率的调和平均)

准确率, 精确率与召回率区别与联系1. 背景介绍2. 准确率（????????????????????????????????）3. 精确率(precision)4. 召回率(recall，也称为查全率)1. 背景介绍对于一般分类问题，有训练误差、泛化误差、准确率、错误率等指标对于常见的二分类问题，样本只有两种分类结果，将其定义为正例与反例。那么在进行分类时，对于一个样本，可能出现的分类情况共有四种– 样本为正例，被分类为正例，称为真正类(TP)– 样本为正例，被分类为反例，称为假反类(FN)

2020-05-22 11:03:34 3846 3

原创 [机器学习-Sklearn]决策树学习与总结（ID3, C4.5, C5.0, CART）

决策树DecisionTreeClassifier学习例子11. 准备数据及读取2. 决策树的特征向量化3. 决策树训练4. 决策树可视化例子11. 准备数据及读取季节时间已过 8 点风力情况要不要赖床springnobreezeyeswinternono windyesautumnyesbreezeyeswinternono windyessummernobreezeyeswinteryesbreezeyes

2020-05-20 17:49:24 6721 1

原创 [机器学习-Sklearn]函数sklearn.feature_extraction.DictVectorizer理解与总结

机器学习-Sklearn之DictVectorizer函数学习函数介绍例子1例子2 - 文件中读数据函数介绍sklearn.featture_extraction.DictVectorizer:　　将特征与值的映射字典组成的列表转换成向量。　　DictVectorizer通过使用scikit-learn的estimators，将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.sparse矩阵。　　当特征的值是字符串时，这个转换器将进行一个二进制One-hot编码。One

2020-05-20 15:56:33 2224 1

原创 [深度学习NPL]word2vector总结与理解

word2vector总结与理解1. 目前成熟的Word2Vector1.1. English Pre-trained word embeddings1.2 Chinese Pre-trained word embeddings2. one_hot编码2.1. 简单对比2.2.优势分析:2.3. 缺点分析:3. 什么是word2vector?4. word2vector怎么做4.1. Skip-Gram& CBOW4.2. word2vector参考资料1. 目前成熟的Word2Vector1.

2020-05-18 22:58:11 1861

原创 [深度学习TF2][RNN-LSTM]文本情感分析包含（数据预处理-训练-预测）

基于LSTM的文本情感分析1. 数据下载2. 训练数据介绍3. 用到Word2Vector介绍wordsList.npy介绍wordVectors.npy介绍4 数据预处理4.1 . generate_train_data函数4.2. generate_embedding_matrix 函数4.3. test_load 函数，验证产生结果 **（trainData.npz, small_word_index.npy, embedding_matrix.npy）**5 训练模型与测试模型6. 预测7. 参

2020-05-15 17:59:53 10858 23

Harry的博客

原创 [pandas]方法总结

原创 [机器学习-Sklearn]K-means(K均值)学习与总结

原创 [机器学习-sklearn]K-means之make_blobs聚类数据生成器

原创 [机器学习-sklearn]数据预处理要点总结

原创 [机器学习-坑] error: Microsoft Visual C++ 14.0 is required

原创 [机器学习-sklearn] KNN(k近邻法)学习与总结

原创 [机器学习-sklearn]鸢尾花Iris数据集

原创 [机器学习-原理篇]支持向量机（SVM)深入理解

原创 [机器学习-数学]什么是协方差/协方差矩阵/矩阵特征

原创 [机器学习-总结] 什么是准确率, 精确率，召回率和(精确率和召回率的调和平均)

原创 [机器学习-Sklearn]决策树学习与总结（ID3, C4.5, C5.0, CART）

原创 [机器学习-Sklearn]函数sklearn.feature_extraction.DictVectorizer理解与总结

原创 [深度学习NPL]word2vector总结与理解

原创 [深度学习TF2][RNN-LSTM]文本情感分析包含（数据预处理-训练-预测）

原创 [深度学习TF2][RNN-NPL数据预处理] -Tokenizer函数

原创 [深度学习TF2] 梯度带(GradientTape)

原创 [深度学习] tensorflow1.x和tensorflow2.x对比与总结

原创 [深度学习]-基于tensorflow的CNN和RNN-LSTM文本情感分析对比

原创深度学习-TF函数-layers.concatenate用法

原创深度学习-函数-tf.nn.embedding_lookup 与tf.keras.layers.Embedding

空空如也

深度机器学习的数据集为什么一定要2万以上的样本？

深度机器学习分类问题中，回归率怎么才能提高？