wp_tao
wild programmer
展开
-
SVM模型实现城镇居民月平均消费数据分类
支持向量机是由感知机发展而来的机器学习算法,属于监督学习算法。支持向量机具有完备的理论基础,算法通过对样本进行求解,得到最大边距的超平面,并将其作为分类决策边界。支持向量机(Support Vector Machines, SVM)在解决小样本、线性、非线性及高维模式识别领域表现出特有的优势。SVM是一种研究小样本机器学习模型的统计学习方法,其目标是在有限的数据信息情况下,渐进求解得到最优结果。其核心思想是假设一个函数集合,其中每个函数都能取得小的误差,然后从中选择误差小的函数作为最优函数。原创 2024-06-06 22:51:45 · 192 阅读 · 0 评论 -
anaconda创建虚拟环境并配置到JupyterNotebook
其中,base环境即是当前的环境,也是anaconda自带的环境,其他环境例如pssquant环境是自己创建的虚拟环境。如上图所示,在开始菜单中扎到Anaconda Prompt(Anaconda)并打开。在命令行窗口中输入命令。接下来,再运行JupyerNotebook的时候,选择内核时就会出现test啦!在test虚拟环境下输入命令。安装ipykernel库。原创 2024-06-04 12:00:57 · 108 阅读 · 0 评论 -
sklearn基于内容的推荐算法
假设你喜欢到一家麻辣香锅店吃麻辣香锅,这家店的老板要开发一个菜品推荐程序。老板先整理出店里各种菜的口味特点,如脆的、甜的、辣的等记录到数据文件中。在顾客点菜时,程序分析该顾客的历史评价得知顾客喜欢的菜品,并据此推荐他可能喜欢的其他菜品。推荐算法使用的是各个菜品的口味特征(taste),为文本类型。然后使用距离度量方法,计算相似度,进行推荐。接下来使用sklearn提供的pairwise_distances()函数计算向量间的距离。可以看出,程序可以对顾客评分较高的“芹菜”推荐出相似度较高的菜品。原创 2024-05-31 23:09:34 · 375 阅读 · 0 评论 -
城市空气质量数据爬取分析可视化
先来看一下数据情况以及可视化效果,本项目使用了pyecharts绘制了日历图、雷达图、折线图、柱状图、饼图和平行坐标系。.ipynb文件,需要在jupyternotebook环境下逐步运行。原创 2024-05-27 23:33:30 · 847 阅读 · 0 评论 -
sklearn线性回归--岭回归
但在岭回归中,对系数(w)的选择不仅要在训练数据上得到好的预测结果,而且还要拟合附加约束,使系数尽量小。直观上来看,这意味着每个特征对输出的影响应尽可能小(即斜率很小),同时仍给出很好地预测结果。这种约束就是正则化。由上图可以看出,Ridge模型在训练集上的分数要低于LinearRegression,但在测试集上的分数更高。复杂度更小的模型意味着在训练集上的性能更差,但泛化性能更好。对于非常小的alpha值(比如0.1),系数几乎没有受到限制,我们得到一个与LinearRegression类似的模型。原创 2024-05-27 16:26:27 · 66 阅读 · 0 评论 -
线性模型--普通最小二乘法
线性模型是在实践中广泛使用的一类模型,该模型利用输入特征的线性函数进行预测。原创 2024-05-26 22:10:14 · 120 阅读 · 0 评论 -
sklearn监督学习--k近邻算法
这一算法对于有很多特征(几百或更多)的数据集往往效果不好,对于大多数特征的大多数取值都为0的数据集来说,这一算法的效果尤其不好。与之相反,如果你的模型过于简单,那么你可能无法抓住数据的全部内容以及数据中的变化,你的模型甚至在训练集上的表现就很差。但是,如果我们的模型过于复杂,我们开始过多关注训练集中每个单独的数据点,模型就不能很好地泛化到新数据上。k-NN算法最简单的版本只考虑一个最近邻,也就是与我们想要预测的数据点最近的训练数据点。可以发现,左上角新数据点的预测结果与只用一个邻居时的预测结果不同。原创 2024-05-22 20:33:09 · 388 阅读 · 1 评论 -
鸢尾花数据集探索
一种可视化方法是绘制散点图,数据散点图将一个特征作为x轴,另一个特征作为y轴,将每一个数据点绘制为图上的一个点。要对一个新的数据点做出预测,算法会在训练集中寻找与这个新数据点距离最近的数据点,然后将找到的数据点的标签赋值给这个新数据点。我们用大写的X是因为数据是一个二维数组(矩阵),用小写的y是因为目标是一个一维数组(向量),这也是数学中的约定。也就是说,数组中包含150朵不同的花的测量数据。我们将这朵花的测量数据转换为二维numpy数组中的一行,这是因为sklearn中的输入数据必须是二维数组。原创 2024-05-21 23:13:18 · 24 阅读 · 0 评论 -
sklearn实现线性回归
本案例使用女性身高体重数据集,数据集如下图所示:可以看到,数据集有15行2列。原创 2024-05-20 22:10:56 · 100 阅读 · 0 评论 -
乳腺癌数据集探索
data.shape为(569, 30),说明特征值有569行30列,也就是说有569个样本,每个样本有30个特征。target为(569,),有569行一列,值为0和1,对应没有乳腺癌和有乳腺癌。得到如下图所示结果,可以看到,原始目标列target,训练集目标列y_train,测试集目标列y_test的乳腺癌0,1所占比例几乎完全一致了。如何生成一个pandas的DataFrame,将data和target作为数据,feature_names和“target”作为列名呢?如果不设置种子,每次都不一样。原创 2024-05-17 17:59:27 · 27 阅读 · 0 评论 -
sklearn机器学习编程练习大全(二)
得到如下结果:array([‘yes’, ‘yes’, ‘no’, ‘yes’, ‘no’, ‘yes’], dtype=object)如何对target列进行数值的编码,转换成1、0的形式?如何查看该数组中的元素对应的是原来的哪个分类呢?DataFrame如下,如何对score列进行one-hot编码?2、如何将IRIS数据集转换成DataFrame形式?如何将以上的DataFrame变成如下的DataFrame?1、如何加载IRIS数据集?3、拆分训练和测试集。原创 2024-05-16 11:37:17 · 135 阅读 · 0 评论 -
sklearn机器学习编程练习大全(一)
DataFrame依然使用第3题中的DataFrame,如何使用常量"常量"填充该DataFrame中字符串列的缺失值呢?hobby列的每个元素都是一个列表,现在我们想要增加一列,对应的是每个学生爱好的数量,也就是hobby列中每个列表的长度,该如何操作呢?如何对如下的DataFrame(学生成绩)进行数值离散化,将成绩分成三个等宽区间,并新增一列score_cut,对应的是每个成绩所在的区间?扩展:继续选取DataFrame中的数值列,并计算该列的均值。上述代码可以得到用于填充缺失值的值,为139.0。原创 2024-05-15 22:01:25 · 577 阅读 · 0 评论 -
pandas--数据的添加和修改
删除有两种方法,一种是使用pop()函数,使用该函数,Series会删除指定索引的数据同时返回这个被删除的值,DataFrame会删除指定列并返回这个被删除的列。pd.concat([s1, s2])可以将两个df或s连接起来。可以使用loc[]指定索引给出所有列的值来增加一行数据。增加行数据的使用场景相对较少,一般是采用数据追加的模式。使用replace方法可以实现数据的批量替换。df._append()可以追加一个新行。fillna对空值填入指定数据。原创 2024-05-09 10:25:04 · 301 阅读 · 0 评论 -
pandas高级操作--数据类型转换和排序
df.sort_index()实现按索引排序,如需降序,传入ascending=False,如需修改原df,传入inplace=True。按列索引排序:df.sort_index(axis=1, ascending=False, inplace=True)。astype()是最常见也是最通用的数据类型转换方法,一般我们使用astype()操作数据类型转换就可以了。数据值的排序主要使用sort_values(),Series和DataFrame都支持此方法。原创 2024-05-08 17:28:16 · 421 阅读 · 0 评论 -
pandas高级操作--复杂查询
如果操作的对象是一个DataFrame,那么变量就是这个DataFrame;以下的例子中,s就是指df.Q1这个Series。也可以传入一个字典,键为列名,值为需要匹配的值,以实现按列个性化匹配存在的值。df.query(expr)使用布尔表达式查询DataFrame的列,表达式是一个字符串,类似于SQL中的where从句,相当灵活。需要注意的是,在进行或(|)、与(&)、非(~)运算时,各个独立逻辑表达式需要用括号括起来。df.filter()支持对行名和列名进行筛选,支持模糊匹配,正则表达式。原创 2024-05-08 12:27:51 · 601 阅读 · 0 评论 -
pandas索引
有时我们想取消已有的索引,可以使用df.reset_index(),它的操作与set_index相反。1、RangeIndex(单调整数范围的不可变索引)。以下方法可以查询索引的属性,同样使用与df.columns,因为他们都是index对象。为了适应各种业务数据的处理,索引又针对各种类型数据定义了不同的索引类型。以下是索引的常用操作,同样适用于df.columns。原创 2024-05-07 16:38:04 · 381 阅读 · 0 评论 -
pandas入门
pandas是使用Python语言开发的用于数据处理和数据分析的第三方库。它擅长处理数字型数据和时间序列数据,文本型的数据也能轻松处理。原创 2024-05-06 23:28:39 · 759 阅读 · 1 评论 -
Pyecharts绘制涟漪散点图
涟漪散点图是散点图的一种,带有涟漪特效,利用特效可以突出显示某些想要的数据。原创 2024-03-29 20:36:23 · 507 阅读 · 0 评论 -
Pyecharts绘制箱型图
箱型图又称箱线图、箱须图,是一种用于显示一组数据分散情况资料的统计图。因其形状如箱子而得名。箱型图在各个领域中经常被使用,常见于品质管理。这五个值共同凸显了数据的分布形状、分布范围和中心倾向。所有这些测量都是非参数测量,不对数据分布进行假设。这使得箱形图特别适合分析的早期阶段。该图通过将数据分解成四分位数来实现。当样本量太小时,四分位数估计值可能没有意义。那么,如何看懂箱型图呢?时,这些图的效果最好。► 上限(最大值);► 下限(最小值)。► 上四分位数;► 下四分位数;原创 2024-03-29 18:50:59 · 344 阅读 · 0 评论 -
Pyecharts绘制折线面积图
折线面积图其实就是在绘制折线图时,添加y轴数据的时候配置一个参数,areastyle_opts,用法示例如下:areastyle_opts = opts.AreastyleOpts(color='green', opacity=0.5),其中,color参数如果不设置的话,就会选择默认的面积颜色,当然可以自己指定;opacity参数用于设置透明度,数值类型。原创 2024-03-29 14:16:26 · 275 阅读 · 0 评论 -
Pyecharts绘制条形图
条形图是一种把连续数据画成数据条的表现形式,通过比较不同组的条形长度,从而对比不同组的数据量大小。描绘条形图的要素有3个:组数、组宽度、祖限。绘制条形图时,不同组之间是由空隙的。条形用来比较两个或两个以上的价值(不同时间或者不同条件),只有一个变量,通常用于较小的数据集分析。条形图也可横向排列,或用多维方式表达。原创 2024-03-29 12:18:55 · 862 阅读 · 0 评论 -
Pyecharts绘制折线图
【代码】Pyecharts绘制折线图。原创 2024-03-27 19:39:50 · 154 阅读 · 0 评论 -
Pyecharts图形参数配置(二)---全局配置项---坐标轴配置项
在上文中,笔者介绍了全局配置项中的基本元素配置项,本篇介绍坐标轴配置项。Pyecharts的坐标轴配置项主要包括AxisLineOpts、AxisTickOpts、AxisPointerOpts、AxisOpts、AxisTickOpts、SingleAxisOpts。原创 2024-03-27 16:52:07 · 1677 阅读 · 0 评论 -
Pyecharts图形参数配置(一):全局配置项---基本元素配置项
Pyecharts是一个Python的第三方数据可视化库,基于百度开源的Echarts开发,有如下特性:1、简介的API设计,使用流畅,v1版本后支持链式调用。2、可以绘制出常见的各种图表。3、支持Notebook环境,可以轻松集成至Flask/Django等主流web框架。4、配置项非常灵活,可以搭配出精美的图表。Pyecharts中的参数配置可以分为全局配置项和系列配置项,本篇详细深入地介绍一下全局配置项。原创 2024-03-27 14:20:51 · 1422 阅读 · 0 评论 -
Matplot绘制各种饼状图
饼状图用来显示各个部分在整体所占的比例。饼状图主要包括基础饼状图、分裂饼状图、立体感带阴影的饼状图、环形图等。原创 2024-03-19 16:40:26 · 1062 阅读 · 0 评论 -
Matplotlib绘制直方图
直方图,又称质量分布图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型;纵轴表示分布情况。直方图是数值数据分布的精确图形表示,是一个连续变量(定量变量)的概率分布的估计。原创 2024-03-18 17:07:53 · 381 阅读 · 0 评论 -
Matplotlib绘制柱形图
柱形图,又称长条图,柱状图、条状图、条形图等,是一种以长方形的长度为变量的统计图表。柱形图用来比较两个或以上的数据(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。Matplotlib绘制柱形图时主要使用bar函数,语法如下:x:x轴数据;height:柱子的高度,也就是y轴的数据;width:浮点型,柱子的宽度,默认值为0.8,可以指定固定值;align:对齐方式,如center(居中)和edge(边缘),默认值为center。原创 2024-03-07 23:33:30 · 283 阅读 · 0 评论 -
Matplotlib绘制多折线图
折线图可以显示随时间而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。下面使用plot()函数绘制学生语数外成绩多折线图。mfc:标记的颜色;alpha:透明度,设置该参数可以改变颜色的深浅。原创 2024-03-07 22:56:02 · 279 阅读 · 0 评论 -
Matplotlib图形参数设置(二)--以体温表为例
接上一篇,Matplotlib绘制图形过程中,还有坐标轴刻度,网格线、文本标签等需要设置,本文将逐一介绍。原创 2024-03-03 23:11:34 · 713 阅读 · 0 评论 -
Matplotlib图形参数设置
在使用Matplotlib绘制图形时,会涉及很多参数,充分利用这些参数可以让用户绘制出来的图形更加多样化和富有创造力。原创 2024-03-03 18:51:16 · 1121 阅读 · 0 评论