![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
机器学习笔记
carroll18
你想要拥有你从未有过的东西,你必须去做你从未做过的事情。
展开
-
人工智能之深度学习框架下的神经网络
文章目录深度信念网络卷积神经网络循环神经网络生成式对抗网络长短期记忆网络深度信念网络深度信念网络是一种概率生成模型,能够建立输入数据和输出类别的联合概率分布。网络中包含多个隐藏层,隐藏层中的隐藏变量通常是二进制数,用来对输入信号进行特征提取。输入信号从深度信念网络的最底层输入,并自下而上有向地传递给隐藏层。而在网络最上面的两层中,神经元之间的连接是没有方向并且对称的,这两个层次共同构成了联想记忆。从功能上看,深度信念网络的每一个隐藏层都代表着对输入数据的一种中间表示,而隐藏层中的每个神经元都代表原创 2020-11-07 10:25:44 · 746 阅读 · 0 评论 -
人工智能之深度学习
文章目录深度学习概述深度前馈网络深度学习中的正则化深度学习中的优化自编码器深度强化学习深度学习概述深度学习是利用包含多个隐藏层的人工神经网络实现的学习。深度学习的思想来源于人类处理视觉信息的方式;深度学习的发展得益于数据的井喷和计算力的飙升;深度学习的理论基础依然有待深入。深度前馈网络网络架构的建立、损失函数的选择、输出单元和隐藏单元的设计、训练误差的处理等问题就成为深度前馈网络设计中的一系列核心问题。深度前馈网络利用深度架构实现工程上可实现的对任意函数的通用逼近;深度前馈网络使用梯原创 2020-11-06 16:47:13 · 1476 阅读 · 0 评论 -
人工智能之人工神经网络
文章目录神经元与感知器多层感知器径向基函数神经网络自组织特征映射模糊神经网络神经元与感知器人工神经网络的神经元用传递函数对输入的线性加权进行非线性处理以产生输出;感知器是一种二分类的监督学习算法,通过自适应调整权重解决线性分类问题;感知器的神经元之间通过权重传递信息,权重的变化根据误差来进行调节;感知器不能解决以异或为代表的线性不可分问题。多层感知器多层感知器(multilayer perceptron)包含一个或多个在输入节点和输出节点之间的隐藏层(hidden layer),除了输入原创 2020-11-06 12:02:37 · 1225 阅读 · 0 评论 -
机器学习之概论
文章目录机器学习概论机器学习概论从大量现象中提取反复出现的规律与模式。这一过程在人工智能中的实现就是机器学习。从形式化角度定义,如果算法利用某些经验使自身在特定任务类上的性能得到改善,就可以说该算法实现了机器学习。而从方法论的角度看,机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。在机器学习中,数据并非通常意义上的数量值,而是对于对象某些性质的描述。被描述的性质叫作属性,属性的取值称为属性值,不同的属性值有序排列得到的向量就是数据,也叫实例。根据输入输出类型的原创 2020-11-04 16:53:06 · 274 阅读 · 0 评论 -
人工智能之数学基础
文章目录线性代数概率论数理统计最优化方法信息论形式逻辑线性代数线性代数不仅仅是人工智能的基础,更是现代数学和以现代数学作为主要分析方法的众多学科的基础。从量子力学到图像处理都离不开向量和矩阵的使用。在线性代数中,由单独的数 a 构成的元素被称为标量(scalar):一个标量 a 可以是整数、实数或复数。如果多个标量 a1,a2,⋯,an 按一定顺序组成一个序列,这样的元素就被称为向量(vector)。显然,向量可以看作标量的扩展。原始的一个数被替代为一组数,从而带来了维度的增加,给定表示索引的下原创 2020-11-04 16:09:39 · 1259 阅读 · 0 评论 -
机器学习常用算法分享
文章目录KNN原理优缺点逻辑斯蒂函数原理优缺点决策树原理优缺点朴素贝叶斯支持向量机自适应提升算法KNNK-近邻算法(k-Nearest Neighbor,KNN)采用测量不同特征值之间的距离方法进行分类。原理已知的数据分为两类:一类是蓝色的正方形,一类是红色的三角形。绿色圆形是待分类的数据。当K=3和K=5时,得到的分类结果不同。KNN本质是基于一种数据统计的方法。度量空间中点之间的距离,常见的曼哈顿距离计算,欧式距离计算等等。不过通常KNN算法中使用的是欧式距离。二维空间两原创 2020-09-26 14:41:34 · 327 阅读 · 0 评论 -
ML特征工程
文章目录1. 特征工程有哪些?1.1 数据处理异常值处理缺失值处理1.2 特征归一化线性函数归一化(Min-Max Scaling)零均值归一化(Z-Score Normalization)1.3 类别型特征序号编码独热编码(one-hot)二进制编码1.4 高维组合特征的处理1.5 文本表示模型词袋模型和N-gram模型主题模型词嵌入与深度学习模型1.6 数据分桶1.7 特征构造1.8 特征选择过滤式包裹式嵌入式PCA降维技术1.9 特征工程脑图2. 机器学习优化方法2.1 常用损失函数平方损失函数log原创 2020-09-08 23:51:51 · 624 阅读 · 0 评论 -
Jupyter NoteBook使用graphviz报错:Error: <stdin>: syntax error in line 1 near ‘None‘
报错代码import graphvizfeature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸'] dot_data = tree.export_graphviz(model, feature_names=feature_name,原创 2020-08-29 10:45:30 · 1522 阅读 · 4 评论 -
机器学习相关知识补充
监督与非监督学习的区别:是否存在因变量(Y结果集),存在即为监督学习,不存在即为非监督学习。分类与回归的问题分类问题:因变量(Y)为离散的标签变量回归问题:因变量(Y)为连续的标签变量分类问题和回归问题的区分标准是因变量(Y)是连续还是离散的,所以分类和回归问题的因变量一定存在。而监督学习和非监督学习的区分标准是因变量是否存在,存在即为监督学习。所以可以得出结论分类问题和回归问题都是监督学习。特征工程符合正态分布的数据适合用均值填充符合偏态分布的数据适合用中位数填.原创 2020-08-28 14:46:31 · 155 阅读 · 0 评论 -
特征工程基础知识总结概述
对于数据挖掘项目,本文将学习应该从哪些角度做特征工程?从哪些角度做数据清洗,如何对特征进行增删,如何使用PCA降维技术等。原创 2020-08-26 09:41:20 · 795 阅读 · 0 评论 -
Numpy常用的基本操作
文章目录Numpy基础数据结构Numpy通用函数Numpy索引及切片Numpy随机数Numpy数据的输入输出Numpy基础数据结构'''Numpy基础数据结构NumPy数组是一个多维数组对象,称为ndarray。其由两部分组成:① 实际的数据② 描述这些数据的元数据'''# 多维数组ndarrayimport numpy as npar = np.array([1,2,3,4,5,6,7])print(ar) # 输出数组,注意数组的格式:中括号,元素之间没原创 2020-08-28 17:33:40 · 2558 阅读 · 0 评论 -
【数据分析项目实战】商铺数据加载及存储
'''【项目】 商铺数据加载及存储要求:1、成功读取“商铺数据.csv”文件2、解析数据,存成列表字典格式:[{'var1':value1,'var2':value2,'var3':values,...},...,{}]3、数据清洗:① comment,price两个字段清洗成数字② 清除字段缺失的数据③ commentlist拆分成三个字段,并且清洗成数字4、结果存为.pkl文件'''import pandas as pdimport numpy as npimport原创 2020-08-21 17:50:17 · 1096 阅读 · 0 评论 -
EDA(Exploratory Data Analysis)
文章目录数据探索基本步骤导入数据了解数据字段查看数据特征分析数字特征分析类别特征分析变量与标签的关系生成数据报告数据的偏度和峰度缺失值的处理EDA(Exploratory Data Analysis):是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。数据探索基本步骤导入数据了解数据字段查看数据查看数据的前几条 data.head()查看数据的尾几条 data.tail()原创 2020-08-28 17:28:49 · 490 阅读 · 0 评论 -
梯度下降法(Gradient Descent)
梯度下降法(英语:Gradient descent)是一个一阶最优化算法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当.原创 2020-07-28 17:24:45 · 4291 阅读 · 0 评论 -
少年的你电影评论爬取和分析实战
文章目录导包爬取数据读取数据存入数据库SnowNLP进行情感分析jieba分词进行数据可视化导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inlineimport requestsfrom lxml import etree爬取数据# 首页 https:...原创 2020-02-29 16:20:03 · 1106 阅读 · 1 评论 -
天池工业蒸汽量预测实战
导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline#可视化库Seabon,提供了一个绘制统计图形的高级接口import seaborn as sns#回归from sklearn.linear_model import LinearRegression,...原创 2020-02-29 13:15:38 · 2837 阅读 · 1 评论 -
新型肺炎数据爬取与分析实战
文章目录导包爬取数据数据清洗数据分析数据可视化DataFrame数据存入MySQL数据库将数据存成CSV/XLSX 文件DataFrame数据存成csv文件DataFrame数据存成xlsx文件导包import requestsimport jsonimport pandas as pd爬取数据#爬取数据#json.loads()是用来读取字符串的,即,可以把文件打开,用readl...原创 2020-02-29 12:35:28 · 971 阅读 · 0 评论 -
国庆档电影数据爬取与分析实战
[]爬取攀登者电影评论信息#导包import requestsfrom lxml import etreeimport time#评论数据的页面urlurl = "https://movie.douban.com/subject/30413052/comments?start=%d&limit=20&sort=new_score&status=P"#请求头创...原创 2020-02-29 11:42:52 · 881 阅读 · 0 评论 -
人工智能预测2020天猫双十一销量
历年销量可视化导包import numpy as npimport matplotlib.pyplot as plt%matplotlib inline生成对应的年份和销量#arange(start,stop,step)根据start与stop指定的范围以及step设定的步长,生成一个 ndarray。years = np.arange(2009,2020)yearssale...原创 2020-02-29 11:16:28 · 1281 阅读 · 1 评论 -
SVM
什么是SVM?SVM主要针对小样本数据进行学习、分类和预测(有时也叫回归)的一种方法,能解决神经网络不能解决的过学习问题,而且有很好的泛化能力SVM原理举个例子:好吧,故事是这样子的:在很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏。魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:尽量在放更多球之后,仍然适用。”于是大侠这样放,干的不错?...原创 2020-02-27 16:21:55 · 767 阅读 · 1 评论 -
K-Means
什么是K-means?K均值算法(K-means)聚类关键词:K个种子,均值聚类的概念:一种无监督的学习,事先不知道类别,自动将相似的对象归到同一个簇中聚类的应用:Market segmentation(市场分割)Socail network analysis (社交网络分析)Organize computing clusters(组织计算机集群)Astrono...原创 2020-02-27 16:21:11 · 289 阅读 · 0 评论 -
贝叶斯与朴素贝叶斯入门及实战
什么是贝叶斯例如:一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,P(A) = 3/7,P(B) = 2/(20365) = 2/7300,P(A|B) = 0.9,按照公式很容易得出结...原创 2020-02-26 21:35:31 · 729 阅读 · 0 评论 -
ML特征工程和优化方法(2万+字总结...持续补充中)
1. 特征工程有哪些?特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。主要讨论以下两种常用的数据类型。结构化数据。结构化数据类型可以看作关系型数据库的一张表,每列都 有清晰的定义,包...原创 2020-02-26 21:34:22 · 3544 阅读 · 0 评论 -
LightGBM
1. LightGBM是什么东东不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了1000次,fork了200次。知乎上有近千人关注“如何看待微软开源的LightGBM?”问题,被评价为“速度惊人”,“非常有启发”,“支持分布式”,“代码清晰易懂”,“占用内存小”等。LightGB...原创 2020-02-26 16:55:55 · 526 阅读 · 0 评论 -
XGBoost
1. 什么是XGBoostXGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost,不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所...原创 2020-02-26 16:55:33 · 424 阅读 · 0 评论 -
GBDT
1. 解释一下GBDT算法的过程GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。1.1 Boosting思想Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的...原创 2020-02-26 16:54:59 · 542 阅读 · 0 评论 -
随机森林
1.什么是随机森林1.1 Bagging思想Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学入噪声后会使准确度不高。举个例子:假设有1000个样本,如果按照以前的思维,是直接把这10...原创 2020-02-26 16:52:56 · 924 阅读 · 0 评论 -
决策树(Desition Tree)
什么是决策树决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税务局上班呢。女儿:那好,我去见见决策树原理决策树:信息论逻辑斯蒂回归、贝叶斯:概率论ID3算法...原创 2020-02-26 16:49:55 · 1328 阅读 · 0 评论 -
matplotlib
图片的灰度化处理灰度化处理就是将一幅色彩图像转化为灰度图像的过程。彩色图像分为R,G,B三个分量,分别显示出红绿蓝等各种颜色,灰度化就是使彩色的R,G,B分量相等的过程。灰度值大的像素点比较亮(像素值最大为255,为白色),反之比较暗(像素最下为0,为黑色)。最大值法将彩色图像中的三分量亮度的最大值作为灰度图的灰度值。平均值法将彩色图像中的三分量亮度求平均得到一个灰度值。加权平均法...原创 2020-02-25 18:20:38 · 295 阅读 · 0 评论 -
Scipy
Scipy简介Scipy依赖于Numpy(np.dot(nd1,nd2))Scipy提供了真正的矩阵Scipy包含的功能:最优化、线性代数、积分、插值、拟合、特殊函数、快速傅里叶变换、信号处理、图像处理、常微分方程求解器等Scipy是高端科学计算工具包 matlab == python+numpy+scipy+pandas+matplotlibScipy由一些特定功能的子模块组成...原创 2020-02-25 18:19:42 · 843 阅读 · 2 评论 -
回归入门及案例实战
线性回归普通线性回归最小二乘法线性:得名于f(x)=ax+b的图像的形象 很直观 就是一条直线的形象岭回归原理缩减系数来“理解”数据优点缩减方法可以去掉不重要的参数,因此能更好地理解数据。此外,与简单的线性回归相比,缩减法能取得更好的预测效果;岭回归是加了二阶正则项的最小二乘,主要适用于过拟合严重或各变量之间存在多重共线性的时候,岭回归是有bias的,这里的bia...原创 2020-02-25 17:18:34 · 455 阅读 · 0 评论 -
pandas库的入门与必备知识
pandas库–数据分析必备的库pandas 熊猫 python data anlysis lib ----->pandaspip install pandas安装就可以使用pandas基于numpypandas中两个常用的类:Series,DataFramepython进行数据分析数据分析都使用什么软件?excel、SPSS、SASexcel操作很简单数据分析,批量数据查...原创 2020-02-16 15:08:13 · 727 阅读 · 0 评论 -
KNN快速入门及案例实战
k-近邻算法原理简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN)优点:精度高、对异常值不敏感、无数据输入假定。缺点:时间复杂度高、空间复杂度高。1、当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很小,输入一个样本的时候,K个临近值中大多数都是大样本容量的那个类,这时可能就会导致分类错误。改进方法是对K临近点进行加权,...原创 2020-02-21 19:22:52 · 517 阅读 · 0 评论 -
numpy库快速入门与基础知识
快捷键B 在一个代码单元下面插入一行,A 上面插入一行运行代码单元:Ctrl + Enter、Alt + Enter、Shift + Enter删除代码单元格:双击d代码自动补全: tab 键numpy常用函数的使用平均值:mean最大值:max最小值:min标准差:std方差:var求多少次幂:power加法:add减法:subtract乘法:multiply除法...原创 2020-02-20 21:50:12 · 711 阅读 · 0 评论 -
机器学习原理
机器学习原理什么是机器学习 从广义上讲,机器学习是一种能够赋予机器学习的能力,让它以此完成直接编程无法完成的功能的方法 从实践的意义上讲,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法原理 人类的学习是一个人根据过往的经验,对一类问题形成某种认识或总结出一定的规律,然后利用这些知识来对新的问题下判断的过程 同样机器学习也是类似的过程 那么机器学习如何积累经验,总结...原创 2020-02-20 21:40:00 · 5569 阅读 · 0 评论 -
动手学深度学习PyTorch版
第一次打卡线性回归softmax和分类模型多层感知机文本预处理语言模型循环神经网络基础原创 2020-02-14 12:58:00 · 318 阅读 · 0 评论 -
语言模型
关联规则多用于推荐系统,但是目前大部分的推荐都是推荐关联度高的信息。但是可以反向使用关联规则来帮助我们找出停滞词(无关词)序列模型的采样gram模型的缺点:参数系数,参数空间过大,存储和内存吃不消没有考虑文本中出现过多的废话词,可以用tf-idf优化没有考虑久远之前出现的词语对现在的影响,可以用bigram、trigram等词袋模型解决...原创 2020-02-14 12:53:20 · 272 阅读 · 0 评论 -
循环神经网络基础
循环神经网络下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量 H ,用 Ht 表示 H 在时间步 t 的值。 Ht 的计算基于 Xt 和 Ht−1 ,可以认为 Ht 记录了到当前字符为止的序列信息,利用 Ht 对序列的下一个字符进行预测。模型参数W_xh: 状态-输入权重W_hh: 状态-状态权重...原创 2020-02-14 12:52:11 · 455 阅读 · 0 评论 -
文本预处理
常见预处理步骤,预处理通常包括四个步骤:读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型现有的工具可以很好地进行分词,我们在这里简单介绍其中的两个:spaCy和NLTK。text = "Mr. Chen doesn't agree with my suggestion."spaCy:import spacyn...原创 2020-02-14 11:56:09 · 489 阅读 · 0 评论 -
多层感知机
多层感知机多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号。多层感知机按以下方式计算输出:HO=ϕ(XWh+bh),=HWo+bo,其中 ϕ 表示激活函数。多层感知机中最为重要的自然是“多层”多层中涉及到的隐藏层的目的是为了将线性的神经网络复...原创 2020-02-13 14:31:05 · 881 阅读 · 0 评论