自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 问答 (2)
  • 收藏
  • 关注

原创 [pandas]方法总结

[pandas]方法总结pandas.rolling 方法pandas.cut 方法用途原型参数含义返回值例子pandas.rename 方法参考pandas.rolling 方法window:表示时间窗的大小,注意有两种形式(int or offset)。如果使用int,则数值表示计算统计量的观测值的数量即向前几个数据。如果是offset类型,表示时间窗的大小。pandas offset相关可以参考这里。min_periods:最少需要有值的观测点的数量,对于int类型,默认与window相等。对于

2020-05-27 20:40:55 384

原创 [机器学习-Sklearn]K-means(K均值)学习与总结

K-means总结前言一,k-means算法二,k的选择(仅供参考)1.肘部法则2. 根据实际应用的目的选择K三,代码讲解相同数据下用K-means分成3个簇和4个簇对比前言kmeans是最简单的聚类算法之一,但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的k,将数据分类后,然后分类研究不同聚类下数据的特点。一,k-means算法在介绍k-means算法之前,先看一个课程中使用k-means对二维数据进行聚类的小例子。下图中(a)是原始样本点,在(b)

2020-05-26 22:57:18 1689

原创 [机器学习-sklearn]K-means之make_blobs聚类数据生成器

make_blobs介绍scikit中的make_blobs方法常被用来生成聚类算法的测试数据,直观地说,make_blobs会根据用户指定的特征数量、中心点数量、范围等来生成几类数据,这些数据可用于测试聚类算法的效果。make_blobs方法:sklearn.datasets.make_blobs(n_samples=100, n_features=2,centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random

2020-05-26 20:05:52 2622

原创 [机器学习-sklearn]数据预处理要点总结

数据预处理要点总结1. 为什么要数据预处理2. 数据中存在缺失值2.1 查看数据的完整性(missingno)2.2 KNN填补法1. 为什么要数据预处理在现实背景中,我们的数据集往往存在各种各样的问题,如果不对数据进行预处理,模型的训练就无法开始。而且机器学习中大约70%的时间都要花在数据预处理上。2. 数据中存在缺失值2.1 查看数据的完整性(missingno)missingno 安装 :pip install missingnomissingno提供了一个灵活且易于使用的缺失数据

2020-05-26 17:12:46 639

原创 [机器学习-坑] error: Microsoft Visual C++ 14.0 is required

安装 cvxpy 和 fancyimpute 时pip install cvxpy错误信息SetuptoolsDeprecationWarning)error: Microsoft Visual C++ 14.0 is required. Get it with “Build Tools for Visual Studio”: https://visualstudio.microsoft.com/downloads/ERROR: Failed building wheel for cvxpyFa

2020-05-26 17:00:31 455

原创 [机器学习-sklearn] KNN(k近邻法)学习与总结

KNN 学习与总结引言一,KNN 原理二,KNN算法介绍三, KNN 算法三要素1 距离度量2. K 值的选择四, KNN特点KNN算法的优势和劣势KNN算法优点KNN算法缺点五, KNN 算法实现1. 线性扫描2. kd 树实现3. 球树实现六, sklearn实现KNN算法七, 实战代码引言KNN可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一,注意KNN算法是有监督学习中的分类算法,它看起来和另一个机器学习算法Kmeans有点像(Kmeans是无监督学习算法),但却是有本质区别的。那

2020-05-26 15:51:21 2265

原创 [机器学习-sklearn]鸢尾花Iris数据集

鸢尾花数据集1. 鸢尾花Iris数据集介绍2. Sklearn代码获取Iris2. 描述性统计3. 数据分布情况1. 鸢尾花Iris数据集介绍Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本,每个样本还有4个特征参数(分别是萼片的长宽和花瓣的长宽

2020-05-24 17:25:26 8741

原创 [机器学习-原理篇]支持向量机(SVM)深入理解

支持向量机SVM1. SVM概念2. SVM 解决的问题3. 模型基本思想4. 支持向量机原理1. SVM概念支持向量机(Support Vector Machine,SVM)属于有监督学习模型,主要于解决数据分类问题。通常SVM用于二元分类问题,对于多元分类可将其分解为多个二元分类问题,再进行分类,主要应用场景有图像分类、文本分类、面部识别和垃圾邮件检测等领域。2. SVM 解决的问题3. 模型基本思想以一个二元分类问题为例讲解模型原理。首先假设有两类数据,如图需要找出一条边界来将两类数据

2020-05-22 23:11:49 985

原创 [机器学习-数学]什么是协方差/协方差矩阵/矩阵特征

这里写目录标题1. 均值:2. 标准差:3. 方差:4. 协方差5. 协方差矩阵6. 参考资料1. 均值:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,2. 标准差:标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不

2020-05-22 19:29:13 2839

原创 [机器学习-总结] 什么是准确率, 精确率,召回率和(精确率和召回率的调和平均)

准确率, 精确率与召回率区别与联系1. 背景介绍2. 准确率(????????????????????????????????)3. 精确率(precision)4. 召回率(recall,也称为查全率)1. 背景介绍对于一般分类问题,有训练误差、泛化误差、准确率、错误率等指标对于常见的二分类问题,样本只有两种分类结果,将其定义为正例与反例。那么在进行分类时,对于一个样本,可能出现的分类情况共有四种– 样本为正例,被分类为正例,称为真正类(TP)– 样本为正例,被分类为反例,称为假反类(FN)

2020-05-22 11:03:34 3846 3

原创 [机器学习-Sklearn]决策树学习与总结 (ID3, C4.5, C5.0, CART)

决策树DecisionTreeClassifier学习例子11. 准备数据及读取2. 决策树的特征向量化3. 决策树训练4. 决策树可视化例子11. 准备数据及读取季节时间已过 8 点风力情况要不要赖床springnobreezeyeswinternono windyesautumnyesbreezeyeswinternono windyessummernobreezeyeswinteryesbreezeyes

2020-05-20 17:49:24 6721 1

原创 [机器学习-Sklearn]函数sklearn.feature_extraction.DictVectorizer理解与总结

机器学习-Sklearn之DictVectorizer函数学习函数介绍例子1例子2 - 文件中读数据函数介绍sklearn.featture_extraction.DictVectorizer:  将特征与值的映射字典组成的列表转换成向量。  DictVectorizer通过使用scikit-learn的estimators,将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.sparse矩阵。  当特征的值是字符串时,这个转换器将进行一个二进制One-hot编码。One

2020-05-20 15:56:33 2224 1

原创 [深度学习NPL]word2vector总结与理解

word2vector总结与理解1. 目前成熟的Word2Vector1.1. English Pre-trained word embeddings1.2 Chinese Pre-trained word embeddings2. one_hot编码2.1. 简单对比2.2.优势分析:2.3. 缺点分析:3. 什么是word2vector?4. word2vector怎么做4.1. Skip-Gram& CBOW4.2. word2vector参考资料1. 目前成熟的Word2Vector1.

2020-05-18 22:58:11 1861

原创 [深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)

基于LSTM的文本情感分析1. 数据下载2. 训练数据介绍3. 用到Word2Vector介绍wordsList.npy介绍wordVectors.npy介绍4 数据预处理4.1 . generate_train_data函数4.2. generate_embedding_matrix 函数4.3. test_load 函数, 验证产生结果 **(trainData.npz, small_word_index.npy, embedding_matrix.npy)**5 训练模型与测试模型6. 预测7. 参

2020-05-15 17:59:53 10858 23

原创 [深度学习TF2][RNN-NPL数据预处理] -Tokenizer函数

TF2-Tokenizer函数1. 背景介绍2. 函数Tokenizer 介绍2.1 设置要保留多少个高频词汇,2.2 训练数据集, 得到一个统计信息2.3 把单词转化为词向量2.4 把每一条数据(比如电影评论)甚至最大单词数量。3. 完整测试代码1. 背景介绍因为现在Tensorflow2.x 以后你要用RNN比如LSTM训练你的数据, 比如你要训练一个情感二分类。那么数据要做预处理,因为你喂给你的模型的数据都是词向量了而不是字母单词或汉字。那么怎么把你的单词或汉字转化为词向量呢。就要用到Toke

2020-05-12 21:37:17 1437

原创 [深度学习TF2] 梯度带(GradientTape)

TF梯度带GradientTape背景介绍tf.GradientTape函数的参数介绍例子1 - persistent =False and watch_accessed_variables=True ,也就是默认值例子2 - persistent =True and watch_accessed_variables=True,例子3 - persistent =True and watch_ac...

2020-05-05 23:44:29 2358

原创 [深度学习] tensorflow1.x和tensorflow2.x对比与总结

tensorflow1.x和tensorflow2.x对比与总结1. 背景介绍2. 易于使用(Ease of use)3. 使用Eager模式(Eager Execution)4. 建立模型和部署变得容易(Model Building and deploying made easy)5. 简化了数据管道(The Data pipeline simplified)6. 一些重要的点是:7. 总结参考...

2020-05-05 17:11:31 13553

原创 [深度学习]-基于tensorflow的CNN和RNN-LSTM文本情感分析对比

基于tensorflow的CNN和LSTM文本情感分析对比数据集介绍参考文献数据集介绍参考文献https://blog.csdn.net/qq_33547191/article/details/86075275https://www.oreilly.com/content/perform-sentiment-analysis-with-lstms-using-tensorflow/...

2020-05-03 17:01:03 4078 5

原创 深度学习-TF函数-layers.concatenate用法

环境: tensorfow 2.*def concatenate(inputs, axis=-1, **kwargs):axis=n表示从第n个维度进行拼接,对于一个三维矩阵,axis的取值可以为[-3, -2, -1, 0, 1, 2]。代码import numpy as npimport tensorflow as tft1 = tf.Variable(np.array([[[1...

2020-05-03 14:22:34 10733

原创 深度学习-函数-tf.nn.embedding_lookup 与tf.keras.layers.Embedding

embedding_lookup函数用法ids只有一行如果ids是多行关于np.random.RandomState、np.random.rand、np.random.random、np.random_sample参考https://blog.csdn.net/lanchunhui/article/details/50405670tf.nn.embedding_lookup函数的用法主要是选取...

2020-05-02 15:21:21 3200

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除