数据分析
文章平均质量分 53
Mr Gao
一个爱好分享的编程学习者,关于博客有不懂的可以留言,基本看到就会回复,最后,希望我的博客可以帮助你们解决一些问题,
展开
-
基于词频统计的聚类算法(kmeans)
基于词频统计的聚类算法(kmeans)原创 2024-05-30 18:37:52 · 302 阅读 · 0 评论 -
基于鸢尾花数据集的四种聚类算法(kmeans,层次聚类,DBSCAN,FCM)和学习向量量化对比
基于鸢尾花数据集的聚类分析原创 2024-05-06 23:56:43 · 966 阅读 · 0 评论 -
完整正确的fpgrowth代码-python
晚上关于fpgrowth代码基本上都是错的,跑出来的结果不唯一,这里我给一份正确的fpgrowth代码。l=[[a,b,c],[,d,c,e,g],[a,e,c,e]]这样就可以了。注意处理后的数据集的形式是一个二级列表,如(parsedDat)原创 2023-05-11 10:22:42 · 615 阅读 · 2 评论 -
数据分析示例-python
,今天呢,博主把之前做过的一个小课题拿出来展示一下,当然这个课题呢做的工作量很大,也用到了很多可以参考的技术和代码,做数据分析工作的可以尝试学习学习。原创 2023-05-08 14:30:35 · 1024 阅读 · 0 评论 -
PCA-python实现综合评价求解-续
【代码】PCA-python实现综合评价求解-续。原创 2022-09-18 17:50:49 · 574 阅读 · 0 评论 -
PCA-python实现综合评价求解
今天帮人做了一个综合评价得分,下面是实现代码,Mat使我们的数据矩阵,k,是我们选择主成分数量,之后返回的是,主成分和特征值,我们求解一下贡献率,比值,加权求解就可以得到特征值。原创 2022-09-13 18:45:48 · 889 阅读 · 0 评论 -
python 操作excel根据某一行的数值对一行进行复制扩行-代码实现
这个代码功能还是很实用的,感兴趣的,可以学习学习。根据数量那个值进行如下扩行。原创 2022-08-18 11:54:57 · 1076 阅读 · 1 评论 -
最小均方算法(lsm)-python代码实现
最小均方算法,简称LMS算法,是一种最陡下降算法的改进算法,是在维纳滤波理论上运用速下降法后的优化延伸,最早是由Widrow和Hoff提出来的。其具有计算复杂程度低、在信号为平稳信号的环境中收敛性好、其期望值无偏地收敛到维纳解和利用有限精度实现算法时的平稳性等特性,使LMS算法成为自适应算法中稳定性最好、应用最广的算法。(4)判断是否满足条件,若满足算法结束,若否n增加1,转入第(3)步继续执行。(2)初始化,赋给w(0)各一个较小的随机非零值,令n=0。X(n)为输入向量,或称为训练样本。...原创 2022-07-30 18:03:52 · 2026 阅读 · 0 评论 -
letnet图片分类 python实现-详细讲解
letnet图片分类 python实现-详细讲解最近发现很多人对这个图片分类的这个代码还是很感兴趣的,所以,今天,我们再将一个letne对图片进行分类的代码数据集,我已上传到我的资源中,想要的,也可以直接找我首先给出我们的文件夹结构:下面两个是存放日志给模型的两个文件夹,下面这个是:数据集文件夹结构,每个文件夹下存储的是我们的训练数据集每个文件夹里都是图片letnet代码有些特殊,训练集的文件夹得名字需要是数字模型训练代码如下,有备注import osimport tensorf原创 2022-05-21 20:03:44 · 855 阅读 · 0 评论 -
python-arima模型statsmodels库实现-有数据集
python-arima模型statsmodels库实现-有数据集最近,帮同学做一些任务,碰到了需要用到arima模型,我就把自己的实现代码给大家学习一下,当然也有数据集,可以帮助大家测试代码,有问题的话,可以咨询我数据集,我直接上传到,我的资源中了,名为arima模型学习数据集下面arima模型实现代码,有参数选择,也有绘图,也有模型预测,还有数据差分和平稳性检验import numpy as npimport pandas as pdimport osfrom numpy import原创 2022-04-24 13:50:43 · 2734 阅读 · 4 评论 -
推荐系统协同过滤-python实现(基于用户的协同过滤算法,基于物品的协同过滤算法,附数据集)
推荐系统协同过滤-python实现(基于用户的协同过滤算法,基于物品的协同过滤算法,附数据集)本次课题算法实践的数据集来源于一篇论文BINE,十一篇顶会论文,这篇论文种使用了两个数据集,分别是dblp和wiki,分别来自两个公开免费数据集的权威网站,且这些数据都是来自于现实生活的。因为两个数据集的格式都是一样的,本次算法实践只使用其中一个进行实验。数据集博主已经上传到个人资源中,需要做该实验的可以自行下载基于用户的协同过滤算法主要包括两个步骤。(1) 找到和目标用户兴趣相似的用户集合。(2) 找到这原创 2021-05-14 18:27:54 · 2934 阅读 · 6 评论 -
基于皮尔逊相关系数的用户相似推荐算法python实现
基于皮尔逊相关系数的用户相似推荐算法python实现随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。推荐系统是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成原创 2021-04-17 14:40:43 · 1818 阅读 · 1 评论 -
因子分析法
因子分析法今天博主想介绍一个很经典的降维方法因子分析法,很多人可能降维第一想到的是主成分分析法,确实主成分分析法是很经典的,因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。简原创 2021-04-02 23:38:22 · 13830 阅读 · 0 评论 -
python 绘制q-q图代码
python 绘制q-q图代码今天,我们附上一份python绘制q-q图的代码简单介绍一下思路1.首先,我们需要对我们绘制的两份数据排序,然后,用散点图绘制在图例上2.之后,绘制散点拟合曲线,下面代码结果图下:q-q图的原理也很重要:数据中一串数目的每个点都是该数据的某分位点,把这些点的(称为样本分位数点)和相应的理论上的分位数配对做出散点图,如果该数据服从正态分布,那么该图看上去应该像一条直线,否则就不服从正态分布。import numpy as npimport matplotlib.p原创 2021-03-27 23:03:47 · 4978 阅读 · 1 评论 -
python 数据分析与可视化
python数据分析及可视化涉及内容(1)Pandas的Series数据类型的定义及相关操作函数;(2)Pandas的DataFtame数据类型的定义及相关操作函数;(3)Pandas的统计功能;(4)Pandas的合并连接和排序;(5)Pandas的帅选和过滤功能;(6)Pandas的数据导入和导出功能。Pandas库入门}1.生成一维数组import numpy as npimport pandas as pdx = pd.Series([1, 3, 5, np.nan]原创 2021-03-03 23:25:33 · 3621 阅读 · 2 评论 -
回归分析-线性相关强度
回归分析-线性相关强度什么是回归分析呢?回归分析:通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具这里,给出回归分析的结构图:可以看出回归分析的内容实际上非常多。今天我们进行一个回归分析的大致流程的讲解首先对于因变量和自变量,我们有两个定义函数关系:确定性关系,此时因变量和自变量之间呈现线性关心诸如y=x∗3+4y=x*3+4y=x∗3+4,像这样,x和y是线性关系相关关系:不确定关系,此时,因变量和自变量不呈现线性关系往往当现实中真正的去做一些回复分原创 2021-01-10 21:51:05 · 5319 阅读 · 0 评论 -
检测样本分布是不是正态分布,绘制其正态分布概率图及异常值检测-python代码实现
根据一份正态分布数据绘制正态分布概率图及异常值检测当我们拿到一份数据时,想要检测数据概率分布是不是正太分布,一个好的方法是绘制其概率图这里我们根据自制的数据首先生成一份正太分布数据import numpy as npp=np.random.randn(10000)此时我们可以查看其方差,标准差,和均值print(p.mean())print(p.var())#方差print(p.std())#标准差正太分分布,均值为0,方差和标准差都为1,如果输出家、结果不符合上述条件我们要对其原创 2020-12-24 09:19:36 · 1125 阅读 · 1 评论 -
pandas进行多条件过滤时可能出现的优先级bug,导致程序无法运行
pandas进行多条件过滤时可能出现的优先级bug,导致程序无法运行当我们进行pandas 多条件过滤时,可能会出像这样的报错ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() 和 cannot compare a dtyped [float64] array with a scalar of type [bool]诸如下面的代码会出错实例代码print(df原创 2020-12-23 19:44:28 · 951 阅读 · 0 评论 -
大数据处理-mapreduce 代码入门实例-多表连接、对单词排序、对数据过滤、统计单词数量并排序、分区统计等
多表连接思路为,通过map阶段将数据按<key,value>进行map,key为id,则shuffle阶段会自动进行组合,但同时对两个表的内容进行标记,进行笛卡尔积时可以进行区分。代码如下package org.apache.hadoop.examples; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWr.原创 2020-12-15 17:03:54 · 2696 阅读 · 4 评论 -
数据预处理技术与对应python代码实现
数据预处理技术与对应python代码实现一、数据清洗1.缺失值的处理:1).忽略元组:若有多个属性值缺失或者该元祖剩余属性值使用价值较小时,应选择放弃对应Python代码df.dropna()#注df为pandas 的DataFrame数据类型2).人工填写:该方法费时,数据庞大时行不通3).全局常量填充:方法简单,但有可能会被挖掘程序愚以为形成了又去的概念df.fillna(volae=V)#V即为我们填充的常量4).属性中心度量填充:对于正常的数据分布而言可以使用均值,而倾斜数据分原创 2020-11-29 20:59:21 · 4172 阅读 · 4 评论 -
如何用matplotlib画图时增加箭头注释
如何用matplotlib画图时增加箭头注释今天学习一个绘图小技巧,用python matplot绘图时增加箭头注释。增加箭头注释只需要两行代码import matplotlib.pyplot as pltplt.text()plt.arrow()那么下面来演示一下怎么用,并解释他们的用法import matplotlib.pyplot as pltplt.figure(figsize=(8,6))plt.text(1.0,1.0,"it is me")plt.arrow(1.原创 2020-11-29 13:01:24 · 4475 阅读 · 2 评论 -
支持向量机SVM-对图像进行分类原理讲解和代码示例
支持向量机SVM-对图像进行分类原理讲解和代码示例对于图像分类,我们往往都想到卷积神经网络,深度学习,可是深度学习很多时候需要很大的计算开销,而且代码编写和调试也较为复杂,对于小型且特征明显数据集的图像分类,有点小试牛刀今天我们就奖一种机器学习的算法SVM对图像进行分类对于图像分类,比较少见,图像的的数据为一种三通道的二维像素点的形式,对于这种数据形式,往往我们使用卷积神经网络去建立模型,但是就算量往往太大,不能在短时间内求解,我们想到,将二维图片展平,即使用python opencv 库的flatt原创 2020-10-25 11:38:31 · 19581 阅读 · 25 评论 -
centos 安装 scala和 spark 并进行测试
centos 安装 scala和 spark今天我们来讲一下,centos 安装scala 和spark,这篇博客接着上面四篇博客,感兴趣的,可以看看我前面几篇博客,那是关于hadoop 下对接eclipse 运行mapreduce 程序的操作。首先下载两个安装包在我给的下面这个网盘链接下载链接:https://pan.baidu.com/s/1RwI9FK-C1RzClQxwxj95Wg提取码:jslz下载开头为spark 和sbt的两个文件下载好之后放在centos 的 /us原创 2020-10-07 20:20:01 · 361 阅读 · 0 评论 -
吴恩达机器学习重难点回顾
吴恩达机器学习重难点回顾原创 2020-07-20 18:56:03 · 924 阅读 · 0 评论 -
历史股价分析-python
历史股价分析-python今天,我们来讲解一个利用numpy 进行历史股价分析的实例这里用到了一个data.csv的文件,分别有成交日期,开市价,成交最高值,成交最低值,收市价下面,我们就来对这个股票信息文件进行统计首先我们先读取数据###利用NumPy进行历史股价分析import sys#读入文件c,v=np.loadtxt('data.csv', delimiter=',', usecols=(6,7), unpack=True)这里就把文件的第七列数据和第八列数据赋值给c和v下面原创 2020-07-01 10:33:35 · 587 阅读 · 0 评论 -
拉格朗日插值法-python实现
下面即为拉格朗日插值法的一个实例我将文件上传到,我的资源当中了,可以直接下载,运行import pandas as pdfrom scipy.interpolate import lagrange #导入拉格朗日插值函数###缺失值处理——拉格朗日插值法inputfile = 'd:/data/catering_sale.xls' #销量数据路径outputfile = 'd:/data/sales.xls' #输出数据路径 data = pd.read_excel(inputfile) #读原创 2020-05-24 22:49:55 · 1168 阅读 · 0 评论 -
python数据分析-numpy数值分析与计算操作
numpy数值分析与计算操作话不多说,上代码吧!1.创建数组##创建一维数组nd2=np.array([12,25,25,366,54,85,69])#print(nd2) ##创建二维数组nd=np.array([[12,25,34],[34,43,23],[23,34,34]])#print(nd)上述代码即为创建数组的代码,可以创建一维数组,二维数组或者三维数组,看你需要数据的结构而定注:np.array函数中有一个参数dtype可以对其进行赋值,来决定数据的类型2.得到数组相原创 2020-05-24 16:28:25 · 636 阅读 · 0 评论 -
线性回归-误差项分析
线性回归-误差项分析当我们用线性回归模型去做回归问题时,会接触到误差项这个概念对于一个线性回归模型y(i)=θTxiy^{(i)}=\theta^Tx^{i}y(i)=θTxi其实往往不能准确预测数据的真实值,这是很正常的,各种各样的因素会使真实值很难符合线性分布,但对于有些数据分布总体会符合线性分布,但不能完全接近,这是很合理的。对于那些很接近线性分布的数据,可以训练模型去尽量的拟合数据。对于每一个样本其实会有这样一个公式:y(i)=θTxi+ε(i)y^{(i)}=\theta^Tx^{i}原创 2020-05-09 23:11:22 · 7901 阅读 · 0 评论 -
python pandas自定义函数之apply函数用法
python pandas自定义函数pandas是数据分析的利器,它内置许多的函数,我之前的一篇博客对pandas的一些常用函数都做了介绍,但是很多时候光是他本身自带的函数可能还不够用,所以这里介绍一下pandas数据类型DataFrame的一个方法,可以让我们的自定义函数运用在上面。下面看一段代码import pandas as pdimport osdef f(column): ...原创 2020-05-07 22:02:57 · 4884 阅读 · 2 评论 -
数据预处理-数据规约
数据规约数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。无参数方法就需要存放实际数据,例如直方图、聚类、抽样。(1)直方图直方图实用分箱来近似数据分布,是一种流行的数据规约形式。属性A的直方图将A的数据分布划分为不想交的子集或桶。通过这种方式...原创 2020-04-30 21:10:59 · 1216 阅读 · 0 评论