python
JackLi_csdn
这个作者很懒,什么都没留下…
展开
-
线性回归--特征缩放
特征缩放是把数据 (各个特征) 变换到同一个尺度。两种常见的缩放方法:标准化归一化标准化标准化是对列中的每个值减去均值后再除以方差,即数据被转换为均值为0,标准差为1。在Python中,假设在 df 中有一列叫 height。可以用以下语句,创建一个标准化的高度:df["height_standard"] = (df["height"] - df["height"].mean()) /...原创 2020-04-12 00:47:16 · 688 阅读 · 0 评论 -
线性回归-正则化
正则化练习sklearn中有一些类帮助将线性回归正则化。你将练习怎样实现将线性回归正则化。在附件的数据文件 (data.csv)中,你将看到一组数据点,包括6个预测器变量和1个结果变量。使用sklearn 的 Lasso 类,根据这些数据拟合一个线性回归模型,同时还使用L1正则化来控制模型的复杂性。执行以下步骤:1.加载数据数据保存在 ‘data.csv’ 文件中。注意数据文件没有标题行。...原创 2020-04-12 00:43:16 · 355 阅读 · 0 评论 -
多元线性回归和多项式回归
1、多元线性回归n 个预测器变量,那么模型可以用以下方程表示:波士顿房价数据集。该数据集包含 506 座房子的 13 个特征,均值为 $1000。你将用一个模型拟合这 13 个特征,以预测房价from sklearn.linear_model import LinearRegressionfrom sklearn.datasets import load_boston# Load t...原创 2020-04-12 00:41:16 · 1527 阅读 · 0 评论 -
网络搜索-多个超参数如何选择
1.导入 GridSearchCVfrom sklearn.model_selection import GridSearchCV2.选择参数:现在我们来选择我们想要选择的参数,并形成一个字典。 在这本字典中,键 (keys) 将是参数的名称,值 (values) 将是每个参数可能值的列表。parameters = {'kernel':['poly', 'rbf'],'C':[0.1,...原创 2020-04-12 00:27:19 · 366 阅读 · 0 评论 -
验证
1、欠拟合(underfitting)高偏差模型过度简化问题,在训练集上效果不好2、过拟合(overfitting)高方差模型过度复杂化问题,在训练集效果太好,在测试集效果不好3、交叉验证4、K折交叉验证,为了不把一些重要的数据放在测试集中,把所有的数据分为K份,做K次训练,测试,其中K份数据中的一部分作为训练,另一部分作为测试5、学习曲线train_sizes, train_...原创 2020-04-12 00:21:52 · 220 阅读 · 0 评论 -
模型-训练集,测试集
1、训练集和测试集0.24539,0.81725,00.21774,0.76462,00.20161,0.69737,00.20161,0.58041,00.2477,0.49561,00.32834,0.44883,00.39516,0.48099,00.39286,0.57164,00.33525,0.62135,00.33986,0.71199,00.34447,0.8...原创 2020-04-11 23:46:24 · 807 阅读 · 0 评论 -
评估回归模型
与优化均方误差相比,优化平均绝对误差可能会导致不同的“最优模型”。然而,与优化 R2 值相同,优化均方误差将总是导致相同的“最优”模型。同样,如果你选择具有最佳 R2 分数(最高)的模型,它也将是具有最低均方误差(MSE)的模型。1、平均绝对误差(MAE),不利于使用梯度下降当你要预测的数据遵循偏斜分布时,这是一个很有用的指标。在这些情况下,对绝对值做优化特别有用,因为与使用均方误差一样,异...原创 2020-04-11 23:42:05 · 355 阅读 · 0 评论 -
评估分类模型
1、训练集和测试集0.24539,0.81725,00.21774,0.76462,00.20161,0.69737,00.20161,0.58041,00.2477,0.49561,00.32834,0.44883,00.39516,0.48099,00.39286,0.57164,00.33525,0.62135,00.33986,0.71199,00.34447,0.8...原创 2020-04-11 23:21:51 · 435 阅读 · 0 评论 -
集成算法
1、bagging(bootstrap aggregating 自助聚集)比如做回答问题,答案是真假,让每个人都回答问题,然后投票,选择票数最多的就是答案boosting(提升算法)adaboost比如做回答问题,答案是真假,让每个人回答自己擅长的问题,即回答的是整体问卷的一部分,然后综合答案决策树是一个“弱”学习器。实际上,大多数集成方法都默认使用sklearn中的决策树。找到一个拟合...原创 2020-04-11 22:30:42 · 274 阅读 · 0 评论 -
分类-支持向量机
1、不仅仅分类,还要距离两边最大,即margin要尽可能没有错误的点,而且要距离要大原创 2020-04-11 00:48:45 · 205 阅读 · 0 评论 -
分类-朴素贝叶斯
1、朴素贝叶斯是一种概率算法,基于条件概率,应用于自然语言处理,应用于垃圾邮件2、贝叶斯原创 2020-04-11 00:07:34 · 196 阅读 · 0 评论 -
分类-决策树
1、通过问一系列问题,通过答案进行预测2、推荐3、原创 2020-04-10 22:56:06 · 280 阅读 · 0 评论 -
分类--感知算法
1、感知算法(神经网络的基础)2、xor 异或,多层,也就是神经网络3、移动的技巧原创 2020-04-10 22:36:04 · 1270 阅读 · 0 评论 -
线性回归
1、绝对值2、3、平均绝对值误差4、均方误差到目前为止,我们已经见过两种线性回归方法。(1)逐个地在每个数据点应用均方(或绝对)误差,并重复这一流程很多次。(2)同时在每个数据点应用均方(或绝对)误差,并重复这一流程很多次。具体而言,向数据点应用均方(或绝对)误差时,就会获得可以与模型权重相加的值。我们可以加上这些值,更新权重,然后在下个数据点应用均方(或绝对)误差。或者同时...原创 2020-04-09 23:07:45 · 210 阅读 · 0 评论 -
机器学习和深度学习
机器学习分类:监督学习、非监督学习、强化学习监督学习:根据标注的数据,判断未标注的数据。主要分为分类、回归。分类返回数据属于什么什么种类,比如是否垃圾邮件、狗的种类等;回归返回数据的数值,比如房屋的价格,人的身高等。非监督学习:直接从未标注的数据中进行判断预测,比如数据集的特征提取、聚类、推荐系统强化学习:在与外界的交互中(奖励或者惩罚),通过学习策略,得到利益最大化,比如自动驾驶、游戏AI...原创 2020-04-07 20:02:34 · 258 阅读 · 0 评论 -
Python矩阵图表
1、多个变量,一起展示,形成n*n矩阵2、默认情况下,PairGrid 只能展示数值变量g = sb.PairGrid(data = df, vars = ['num_var1', 'num_var2', 'num_var3'])#直方图放在对角线g.map_diag(plt.hist)#其余的放置散点图g.map_offdiag(plt.scatter)3、对于其他关系,Pai...原创 2020-03-21 17:28:46 · 646 阅读 · 0 评论 -
python 三个变量-其他可视化图
1、两个分类变量和一个数值变量ax = sb.barplot(data = df, x = 'cat_var1', y = 'num_var2', hue = 'cat_var2')ax.legend(loc = 8, ncol = 3, framealpha = 1, title = 'cat_var2')2、“hue” 参数也可以在函数 boxplot, violinplot 和 p...原创 2020-03-21 16:59:41 · 3017 阅读 · 0 评论 -
python 三个变量-分面
g = sb.FacetGrid(data = df, col = 'cat_var1', size = 4)g.map(sb.boxplot, 'cat_var2', 'num_var2')g = sb.FacetGrid(data = df, col = 'cat_var2', row = 'cat_var1', size = 2.5,margin_titles = True)g.m...原创 2020-03-20 23:44:08 · 233 阅读 · 0 评论 -
Python 三个变量
如果一个图表需要展示三个变量,那么将会有以下四种情况:(1) 三个变量都是数值变量(2)两个是数值变量,一个是分类变量(3)一个是数值变量,两个是分类变量(4)三个都是分类变量如果三个变量中至少有两个是数值型的,用散点图画出数值变量,然后使用非位置编码的方式可视化第三个变量。非位置的编码方式主要有三种:形状,大小,颜色1、形状对于无序分类变量,形状是一个很好的编码方式。每一个类别,可...原创 2020-03-20 18:52:59 · 2188 阅读 · 0 评论 -
Python 折线图
1、作用描绘一个数值变量相对于第二个数值变量的变化趋势,在折线图中,每个唯一 x 值或 x 值的分组区间仅绘制一个点(就像直方图一样)。如果一个 x 分组区间中有多个观测值,那么该点在折线图中绘制的 y 值将为该数据点在分组中的概括统计值(例如均值或中位数)。绘制的点用线条连接起来,强调 x 值的顺序或相连特性。2、如果 x 变量表示时间,则数据的折线图通常称之为时间序列图表3、# set...原创 2020-03-19 00:14:05 · 589 阅读 · 0 评论 -
Python 分面
1、作用分类变量和数值变量2、绘制bin_edges = np.arange(-3, df['num_var'].max()+1/3, 1/3)g = sb.FacetGrid(data = df, col = 'cat_var')g.map(plt.hist, "num_var", bins = bin_edges)g.set_titles('{col_name}')3、每行几个...原创 2020-03-18 21:08:07 · 225 阅读 · 0 评论 -
Python 分组条形图
1、作用两个分类变量之间的关系2、绘制sb.countplot(data = df, x = 'cat_var1', hue = 'cat_var2')原创 2020-03-18 20:30:20 · 1523 阅读 · 0 评论 -
python 小提琴图和箱线图
1、作用绘制一个数值变量和一个分类变量之间的关系,小提琴图是较低级别的抽象2、绘制删除箱线图,可以在 violinplot 调用中设置 inner = Nonebase_color = sb.color_palette()[0]sb.violinplot(data = df, x = 'cat_var', y = 'num_var', color = base_color,inner =...原创 2020-03-18 20:04:13 · 829 阅读 · 0 评论 -
Python 散点图
1、作用研究两个数值变量之间的关系plt.scatter(data = df, x = 'num_var1', y = 'num_var2')#带有回归曲线sb.regplot(data = df, x = 'num_var1', y = 'num_var2')sb默认的回归函数是线性回归...原创 2020-03-18 00:41:40 · 632 阅读 · 0 评论 -
Python 直方图
1、和条形图的区别直方图的x轴代表的是区间范围,包含左边,不包含右边2、hist 函数会根据值的范围将数据分成 10 个组,df[‘num_var’].describe()估计组下限和组上限最合适arange 仅返回完全小于上限的值。“+1” 可有效地确保最右侧的分组边界至少是数据的最大值,以便所有数据点都能绘制出来import matplotlib as pltplt.hist(dat...原创 2020-03-17 20:29:10 · 1448 阅读 · 0 评论 -
Python 饼图
1、使用情况(1)整体是由哪几部分组成(2)绘制比较少的部分,比如两个到3部分,某些类别所占的比例很小,那可以将它们组合到一起,或者将这些比例很小的类别放到 “其他” 类别中(3)系统地绘制数据。绘制饼图的一种常见方法是从圆圈的顶部开始,然后沿着顺时针方向绘制每个分类级别,从最常见的到最不常见的排列。如果有三个类别,并且想要对比其中两个,一种常见绘制方法是将这两个类别放在 12 点钟方向的两...原创 2020-03-17 19:26:37 · 552 阅读 · 0 评论 -
Python条形图
1、条形图import seaborn as sb#data指pd的dataframe,x指的坐标,也可以设置为ysb.countplot(data = df, x = 'cat_var')#返回一个 RGB 元组列表,每个元组由三个数字组成,分别对应红绿蓝通道值,这三个值确定一个颜色sb.color_palette()#选择第一个base_color = sb.color_pale...原创 2020-03-16 22:36:30 · 382 阅读 · 0 评论 -
Python 可视化
1、类库Matplotlib:功能强大的数据可视化库,但是画一些常用的图也可能需要花时间研究代码。Seaborn:架构在 matplotlib 的基础上,但添加了一些函数或方法,使常见的统计可视化变得更便捷。pandas:虽然这个库包含一些便捷的、基于 matplotlib 的数据可视化方法,但是它的主要功能是进行数据处理,我们也会将其视为处理数据的主要工具。...原创 2020-03-13 23:48:25 · 232 阅读 · 0 评论 -
python清理数据
1、替换列里的内容# 使用字符串分割,删除每个动物名称前面的 'bb' df_clean['Animal'] = df_clean['Animal'].str[2:]# 在体重和脑重量两列,将 ! 替换为 . df_clean['Body weight (kg)'] = df_clean['Body weight (kg)'].str.replace('!', '.')df_clean[...原创 2020-03-13 23:23:21 · 265 阅读 · 0 评论 -
python 评估数据
从两个方面评估:数据质量问题(即内容问题)和整洁度(即结构性问题)。(1)脏数据:不准确、损坏的、重复的数据(2)messy data:不整洁,整洁的数据就是一行一列...原创 2020-03-12 18:28:57 · 332 阅读 · 0 评论 -
python收集数据
1、request库import requestsresponse=request.get(url)response.content//得到了字节,而不是text2、beautifulsoup 解析html3、word_cloud可视化库原创 2020-03-11 22:47:38 · 433 阅读 · 0 评论 -
数据分析
收集、评估、清洗import pandas as pdimport zipfile# 从压缩文件中提取所有内容with zipfile.ZipFile('armenian-online-job-postings.zip', 'r') as myzip: myzip.extractall()# 读取逗号分隔文件到 DataFramedf = pd.read_csv('onlin...原创 2020-03-08 21:47:56 · 155 阅读 · 0 评论 -
python
1、列表[1,2,3,4,5]原创 2019-11-03 18:53:21 · 244 阅读 · 0 评论 -
Python 使用
在Mac和Linux上直接运行.py文件#!/usr/bin/env python3print('hello, world')chmod a+x hello.py字符串:单引号或者双引号括起来,但不能混用单引号和双引号原创 2018-05-08 09:34:48 · 245 阅读 · 0 评论