![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习与深度学习
龙在水中游
这个作者很懒,什么都没留下…
展开
-
conda环境中常用的一些命令
1. conda info -e 可以查看安装的虚拟环境都有哪些2.conda create -n pytorchpython=3.6 创建一个叫做pytorch的虚拟环境3.conda remove -n pytorch --all 删除pytorch虚拟环境4.conda remove -n pytorch package_name 删除虚拟环境中的包、5.conda antivate pytorch 激活pytorch虚拟环境6.python --version 查看pyth...原创 2020-09-23 09:07:59 · 238 阅读 · 0 评论 -
用anaconda安装pytorch的一些经验
1. 查看一下nvidia驱动是否支持cuda版本。首先要在命令行查看nvidia驱动版本,输入nvidia-smi,出现下面的情况,可以查看了,若识别不到此命令,是因为没有添加到系统变量里面。添加到里面之后就可以了。现在nvidia控制面板-帮助-系统信息-组件,就可以查看支持的cuda版本。2. 下面是安装cuda 驱动,https://developer.nvidia.com/cuda-toolkit-archive要找和第5步相同版本的cudatoolkit...原创 2020-09-23 08:53:06 · 356 阅读 · 0 评论 -
决策树
决策树的几个概念:信息熵:表示信息的不确定程度。值越大,表示信息的不确定程度越大。条件熵:知道了某种信息之后的不确定程度。互信息:表示衡量信息相关性的指标。值越大,表示相关性越大。或者叫信息增益。ID3方法就是通过寻找互信息来构建决策树的。首先就是寻找互信息最大的那个属性作为根节点,然后一步步的构建决策树。最后的叶子节点表示预测的结果。...原创 2019-11-05 11:07:10 · 100 阅读 · 1 评论 -
机器学习的简单介绍
机器学习:用算法分析数据,学习规律,然后做出决定和预测。机器学习主要分为三类:监督学习,无监督学习和强化学习。监督学习的数据涉及到一组标记数据。监督学习的两种主要类型是:分类和回归。分类:在分类中,机器被训练成将一个组划分为特定的类,如垃圾邮件过滤器。回归:在回归中,机器使用先前标记的数据来预测天气,如天气预报。无监督学习中,数据是无标签的。无监督学习分为聚类和降维。...原创 2019-05-09 16:32:44 · 191 阅读 · 0 评论 -
python机器学习之用决策树处理泰坦尼克号数据
首先需要引入需要的类from sklearn.tree import DecisionTreeClassifier,export_graphvizfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.model_selection import train_test_split然后写入函数tree_titanic()def tree_titanic(): path="E:\data\\titanic原创 2020-05-25 15:35:02 · 992 阅读 · 0 评论 -
python机器学习之决策树
决策树整体上就是类似于一棵充满if-else的树。信息:用来消除随机不确定性的东西。信息熵,单位是比特,可以用来代表不确定性策略树一种划分的依据是:信息增益:知道某种特征之后,不确定性减少的最多,就可以先看这个特征,即这个特征的信息增益最大g(D,A)=H(D)-H(D/A)H(D)是信息熵,H(D/A)是条件熵,g(D,A)可以看成特征A的信息增益。决策树太大,太深,会过于拟合,造成泛化能力不强优点:简单,可视化-可解释能力强,不像深度学习,那么深,很多都在做特征提取,都不原创 2020-05-22 17:23:35 · 377 阅读 · 0 评论 -
python机器学习之朴素贝叶斯分类器
朴素贝叶斯通常是用于文本分类,通过计算每种类别的概率,其中寻找最大的概率所在的类别,即为结果分类。朴素的意思为假定文本属性之间是相互独立的。有时需要用到拉布拉斯平滑系数。优点:对缺失值不敏感,速度快。缺点:由于假设样本特征相互独立,所以样本属性关联强的时候,分类效果不好。下面以20条新闻为例:首先引入类from sklearn.datasets import fetch_20newsgroupsfrom sklearn.feature_extraction.text im原创 2020-05-22 14:17:37 · 448 阅读 · 0 评论 -
python机器学习之模型选择与调优
交叉验证:就是在训练集里面分出来一部分数据,用于验证,这部分数据叫做验证集。比如分成四部分,每一部分都轮流用于验证,叫做4折交叉验证。超参数搜索-网格搜索,手动指定参数叫做超参数。首先引入相应的类,from sklearn.model_selection import GridSearchCV然后需要在引入分类器之后,引入GridSearchCV,还以鸢尾花为例:def knn_iris_gscv(): # 1.获取数据 iris = load_iris()原创 2020-05-20 13:43:13 · 458 阅读 · 0 评论 -
浅析python机器学习之KNN分类器
首先要明白KNN含义,KNN是K Nearest Neighbors 的缩写,即k-最邻近算法。KNN一般用于分类,如果要区分一个个体属于哪一类,就计算K个最邻近的个体,其中,大多数个体属于哪一类,就被分配到哪一类。下面是用鸢尾花数据集进行演示:首先需要引入库里面所需要的类from sklearn.datasets import load_iris from sklearn.model_selection import train_test_splitfrom sklearn.pre原创 2020-05-20 09:59:16 · 333 阅读 · 1 评论 -
python机器学习之主成份分析法(PCA)
首先引入PCA类from sklearn.decomposition import PCA然后:def pca_demo(): data=[[2,8,4,5], [6,3,0,8], [5,4,9,1]] #1.实例化一个转换器类 transfer=PCA(n_components=2) # n_components后面可以是整数,也可以是小数,如下面两行 #2 保留2个特征 #0.95 保留95%个特征 #2.调用fit_transf.原创 2020-05-19 14:26:46 · 259 阅读 · 0 评论 -
tfidf的数学原理
参考https://blog.csdn.net/zrc199021/article/details/53728499Tfidf的数学原理 是一种统计方面的知识。Tf (term frequency)词频:指的是一个词语在该文件中出现的频率。频率越高,并不能代表该词语比较重要,如很多无用的词,频率比较高,如含“的”。逆向文档频率(inverse document frequency, idf)是一个词语普遍重要性的度量。某一特定词的idf,可以由总文件数目除以包含该词语之文件的数目,再将取以1..原创 2020-05-18 13:41:50 · 425 阅读 · 0 评论 -
python机器学习之文本特征提取CountVectorizer
首先引入文本特征提取类CountVectorizerfrom sklearn.feature_extraction.text import CountVectorizer函数为:def count_demo(): #文本特征提取count data=["life is short,i like like you very much"] #1.实例化一个转化器类 transform=CountVectorizer(); #2.调用fit_transfor原创 2020-05-15 16:32:03 · 843 阅读 · 0 评论 -
python机器学习之字典特征提取
首先需要引入字典特征提取类from sklearn.feature_extraction import DictVectorizerdef dict_demo(): #字典特征提取 data=[{'city':'北京','temperature':100},{'city':'上海','temperature':60},{'city':'深圳','temperature':30}] #1.实例化一个转换器类 transfer= DictVectorizer(sp原创 2020-05-15 16:01:35 · 606 阅读 · 0 评论 -
python机器学习-鸢尾花数据集以及训练集和测试集划分
首先需要从sklearn里面引用鸢尾花数据集:from sklearn.datasets import load_iris #引入鸢尾花加载函数load_irisfrom sklearn.model_selection import train_test_split #引入训练集、测试集划分函数输出鸢尾花数据集属性:def datasets_demo(): iris=load_iris() #bunch类型 继承自字典 加载鸢尾花数据集 既包括特征值也包括目标值原创 2020-05-15 15:52:31 · 8490 阅读 · 0 评论 -
简单记录安装tensorflow的流程
此笔记只是简单记录一下安装的流程,在安装的时候是根据同事写的一个教程,但是我的电脑环境跟他安装的时候是不同的,故还得百度了一下其他的教程,然后相结合阴差阳错的安装成功了。安装的软件为Anaconda3+tensorflow+pycharm 安装的时候最好事前没有python环境,安装的时候Anaconda3会自动的安装上,有一个很神奇的地方,就是在安装选项的时候,因为事前我的电脑已经安装了p...原创 2020-04-08 09:35:47 · 128 阅读 · 0 评论