自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

翻译 Python数据类型转换及描述

主要学习如何了解数据,例如读入数据的模块如何,各个变量都属于什么数据类型,一些重要的统计指标对应的值是多少,离散变量唯一值的频次如何统计等等。# 数据类型转换及描述统计# 数据读取sec_cars = pd.read_table(r'C:\Users\LENOVO\Desktop\sec_cars.csv', sep = ',')# 预览数据的前五行sec_cars.head()# 查看数据的行列数print('数据集的行列数:\n',sec_cars.shape)# 查看数据集每个变量的数

2021-03-27 22:12:13 312

原创 运行代码pymysq总报错,求大神指教

我已经安装了最新的pip,安装了pymysql,一运行就报错,我查了好多都没有可以解决这个问题的方法。有没有大神可以帮帮我,感激不尽。

2021-03-27 10:30:39 160

原创 Python外部数据的读取

在实际工作中,更多的情况是通过Python读取外部数据集,这些数据集可能包含在本地的本文文件(如csv、txt等)、电子表格Excel和数据库中(如MySQL、SQL Server等)。现在学习是如何基于pandas模块实现文本文件、电子表格和数据库数据的读取。文本文件的读取要读取txt和csv格式中的数据 ,可以使用pandas模块中的read_table函数或read_csv函数。而并不是说每个函数只能读取一种格式的数据,而是这两种函数均可以文本文件的数据。由于两种函数功能和参数使用上类似,因此这里

2021-03-26 22:19:07 860

原创 Python数据处理 pandas

接下来开始学习Python的另一个常用模块,强大的数据处理模块pandas,这个模块可以帮助数据分析师轻松解决数据预处理的问题,如数据类型的转换、缺失值的处理、描述性统计分析、数据的汇总等。首先学习序列与数据框的构造,pandas模块的核心操作对象就是序列和数据框,序列可以理解为一个数据集中的一个字段,数据框是指含有至少两个字段(或序列)的数据集。构造序列构造序列可以通过以下方式实现:1.通过同质的列表或者元组实现2.通过字典构建3.通过numpy中的一维数组构建4.通过数据框DataFram

2021-03-24 12:08:31 229 1

原创 Python 伪随机数的生成

推荐使用numpy模块中的子模块random为了直观展示分布函数的概率密度曲线,以正态分布和指数分布为例。import seaborn as snsimport matplotlib.pyplot as pltfrom scipy import stats# 生成各种正态分布随机数np.random.seed(1234)rn1 = np.random.normal(loc = 0, scale = 1, size = 1000)rn2 = np.random.normal(loc = 0,

2021-03-23 18:26:01 535

原创 Python 线性代数的相关计算

介绍numpy模块解决各种线性代数相关的计算,需要调用numpy的子模块linalg,该模块几乎提供了线性代数所需的所有功能。np.zeros 生成零矩阵np.eye 生成单位矩阵np.dot 计算两个数组的点积np.diag 矩阵主对角线与一维数组间的转换np.linalg.det 计算矩阵行列式np.linalg.eigvals 计算矩阵特征根np.linalg.pinv 计算方阵的Moore-Penrose伪逆np.linalg.lstsq 计算ax=b的最小二乘解n

2021-03-23 17:25:12 484

原创 python数组的基本运算符

四则运算math = np.array([98,83,86,92,67,82])english = np.array([68,74,66,82,75,89])chinese = np.array([92,83,76,85,87,77])tot_symbol = math+english+chinesetot_fun = np.add(np.add(math,english),chinese)print('符号加法:\n',tot_symbol)print('函数加法:\n',tot_fun)

2021-03-20 17:01:50 769

翻译 python数值计算------数组的创建与操作

通过numpy模块中的array函数实现数组的创建,构成数组的元素都是同质的,即数组中的每一个值都具有相同的数据类型。数组的创建# 导入模块,并重命名为npimport numpy as np# 单个列表创建一维数组arr1 = np.array([3,10,8,7,34,11,28,72])# 嵌套元组创建二维数组arr2 = np.array(((8.5,6,4.1,2,0.7),(1.5,3,5.4,7.3,9),(3.2,3,3.8,3,3),(11.2,13.4,15.6,17.8,

2021-03-19 15:58:17 667

翻译 python自定义函数

在Python中有一种自定义函数为匿名函数,可以用lambda关键字定义。通过lambda构造的函数可以没有名称,最大的特点是在自定义匿名函数时所有代码只能在一行内完成,语法如下:lambda parameters : function_expressionlambda为匿名函数的关键起始词;parameters是函数可能涉及的形参,如果有多个参数,需要用英文状态的逗号隔开;function_expression为具体的函数体。如果构造的函数不是很复杂就用lambda匿名函数一气呵成,否则就只能使用d

2021-03-18 16:25:14 164

翻译 python正则表达式

正则表达式是从字符串中发现规律,并通过“抽象”的符号表达出来。常用的正则符号:. #可以匹配任意字符,但不包含换行符\n\ #转义符,一般用于保留字符串中的特殊元字符| #逻辑或[] #用于匹配的一组字符\d与\D #\d匹配任意数字,\D代表所有非\d\s与\S #\s匹配任意空白字符,\S代表所有非\s\w与\W #\w匹配字母或下划线,\W代表所有非\w* #匹配前一个字符0到无穷次+ #匹配前一个字符1到无穷次? #匹配前一个字符0到1次{m} #匹配前一个字符m次{m,n

2021-03-17 10:10:50 75

翻译 Python字符串处理方法

构造字符串可以使用三种形式的引号,如果字符串的内容不包含任何引号,那么单引号、双引号和三引号都可以使用;展示如下实例:# 单引号构造字符串string1 = '"commentTime":"2018-01-26 08:59:30","content":"包装良心!馅料新鲜!还会回购"'# 双引号构造字符串string2 = "ymd:'2017-01-01',bWendu:'5℃',yWendu:'-3℃',tianqi:'霾~晴',fengxiang:'南风',aqiInfo:'严重污染'"#

2021-03-16 17:00:05 109

原创 Python元组和字典

元组元组与列表相似,元组通过英文状态下的圆括号构成即(),其存放的元素与列表一样,可以是不同的数值类型,也可以是不同的数据结构。元组仍然是一种序列,与几种获取列表元素的索引方法相同。然而与列表最大的区别就是,元组不再是一种可变类型的数据结构。由于元组只是存储数据的不可变容器,因此其只有两种可用的方法,分别是count和index,功能与列表中的一样。字典字典是一种非常常用的一种数据结构,它与json格式的数据非常相似,核心就是以键值对的形式存储数据,关于Python中的字典有如下说明:1、构造

2021-03-15 10:43:52 395

原创 python基础与数据挖掘

数据挖掘的流程:明确目标,数据搜集,数据清洗,构建模型,模型评估,应用部署。列表说明:(1)列表的构造是通过英文状态下的[]完成的,可以将每一个元素存放在中括号中,而且列表中的元素是不受任何限制的,可以存放数值、字符串以及其他数据结构的内容。(2)列表是一种序列,即每个列表元素是按照顺序存入的,这些元素都有一个属于自己的位置。(3)列表是一种可变类型的数据结构,即可以实现对列表的修改,包括增加、删除和修改列表中的元素值。在Python中的位置索引都是从0开始的。接下来通过具体例子介绍:正向单

2021-03-14 17:43:36 156

原创 matlab基础知识

当命令后面有分号(半角符号格式)时,按enter键后,命令行窗口中不显示运算结果,如果无分号,则在命令行窗口中显示运算结果。当希望先输入多条语句,然后再同时执行它们时,在输入下一条命令时,要在按住ctrl键的同时按enter键进行换行输入。数据类型MATLAB中的数据类型主要包括数值类型、逻辑类型、字符串、函数句柄、结构体和单元 数组类型。这6种基本的数据类型都是按照数组形式存储和操作的。另外。MATLAB中还有两种用于高级交叉编程的数据类型,分别是用户自定义的面向对象的用户类类型和Java类类型。数

2021-01-16 10:33:03 185

原创 R语言 数据转化2

数据框的转置行与列的转置t()函数,单独转置一行利用rev函数即可用于向量也可用于数据框eg修改数据框中的值 eg 将women数据集中身高英寸换位厘米 为单位如果需要修改的值较多上面的方法就不高效率,可以利用transfor函数可以任意修改数据框中列的值如果不想修改原数据那么可以再定义一个值R中和排序有关的函数:sort:对向量进行排序,返回值是排序后的结果向量,默认数值...

2020-04-14 22:02:22 2376

原创 R语言 数据格式转换1

矩阵转化成数据框用as.data.frame(x)数据框转化成矩阵比较麻烦,如果同时存在字符串类型和数值类型,那么就会默认将数值转化成字符串型,数据框无法转化成向量和因子methods(as)函数查看所有as.函数R中最基础的数值类型就是向量,向量可以转化成多类型的数据,例如给向量添加维度就能转化成矩阵或数组。eg向量转化成因子类型的数据向量转化成列表取数据框的子集,可以利用...

2020-04-12 12:58:53 4617

原创 R语言 时间序列分析

时间序列分析:1.对时间序列的描述2.利用前面的结果进行预测 ts是时间序列的英文简称可以使用Sys.Date()函数查看当前系统的时间用seq函数创造连续的时间点egseq(as.Date("2020-01-01"),as.Date("2020-04-07"),by=3)ts函数生成时间序列,,可以很方便的将向量转化成时间序列egsales=round(ru...

2020-04-07 13:49:57 459

原创 R语言 字符串

在R中字符串出现的地方要加引号nchar函数可以返回字符串的长度,空格也算一个字符串length函数返回向量内字符串的个数paste可以将多个字符串合并为一个,在此函数里可以设置sep函数设置分隔符substr用于提取字符串,函数参数分别为:一个原始的字符串,一个起始点,一个结束点,函数返回起始点和结束点之间的字符串toupper函数可以将字符串转换成大写tolower将字符串转化为小...

2020-04-07 12:47:08 555

原创 R语言 缺失数据

智齿为什么有人长有人不长,长的概率有多大,为什么我要长智齿!!!缺失数据的分类完全随机缺失随机缺失非随机缺失处理缺失数据之前要了解为何会出现缺失数据1.机器断电,导致某个测量值发生了丢失2.测量根本没有发生,列如:在调查过程中有些数据没有调查,或者无效在R中,NA代表缺失值(不可用),有可能是0有可能为任何值在函数中添加na.rm=TRUE可以跳过缺失值后进行计算,并减少缺失值...

2020-04-06 22:43:45 856

原创 R语言 因子 3.31

变量分类:名义变量,有序型变量(不一定是数值型),连续型变量(年龄等)因子,在R中名义型变量和有序型变量称为因子,factor。这些分类变量的可能值称为一个水平,level,列如good,better,best,都称为一个level。这些水平值构成的向量就称为因子。因子的应用:计算频数、独立性检验、相关性检验、方差分析、主成分分析、因子分析eg 统计因子频数将向量转换成因子:可以人...

2020-03-31 23:03:06 213

原创 R 3.31 数据框

数据框是一种表格式的数据结构。数据框旨在模型数据集,与其他统计软件列如SAS或者SPSS中的数据集概念一致。数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。不同的行业对于数据集的行和列叫法不同。数据框实际上是一个列表。列表中的元素是向量,这些向量构成数据框的列,每一列必须具有相同的长度,所有数据框是矩形结构,而且数据框的列必须命名。数据框形状上很像矩阵,其实是比较规则的列表,...

2020-03-31 13:38:08 268

原创 R语言 3.31 列表

终于把论文写完了太棒了,耽误了很久列表是用来存储很多内容的一个集合,在其他编辑语言中,列表一般和数组是等同的,但在R语言中,列表却是R中最复杂的一种数据结构,也是非常重要的一种数据结构。列表就是一些对象的有序集合。列表中可以存储若干向量、矩阵、数据框,甚至其他列表的组合。在模式上和向量类似,都是一维数据集合向量只能存储一种数据类型,列表中的对象可以是R中的任何数据结构,甚至列表本身。e...

2020-03-31 11:25:29 138

原创 R语言 向量运算,索引,矩阵索引

abs(x)取绝对值和MATLAB中一样sqrt(x)取平方根和matlab一样log(16,base=2)q取以二为低16的对数,默认为自然对数log10 (10)以10为低可以这样写exp(x)计算指数ceiling()返回不小于x的最小整数floor()返回不大于x的最小整数trunc()返回整数部分round(向量,digits=2)四舍五入,控制返回后保留的位数sign...

2020-03-23 17:28:23 1779

原创 R语言

数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。R语言中的数据类型1.数值型,数值可以用于直接计算,加减乘除2.字符串型,可以进行连接,转换,提取等3.逻辑型,真或假4.日期型等一般编程数据结构普通数据结构:向量,标量、列表、数组、多维数组特殊数据结构:perl中的哈希,python中的字典,c语言中的指针R对象object,...

2020-03-18 11:09:35 368

原创 R语言 内置数据集

help(package='datasets')查看数据集帮助data()访问数据集前面为数据集名字,后面介绍数据集的内容,包含了R所有用到的数据类型(向量,矩阵,列表,因子,数据框,时间序列等)。直接输入数据集的名字就可以输出数据:这些数据集的名字都是内置的,一般在给变量命名时最好避免重复,否则数据集会被置换掉。help("mtcars")查看具体数据集的信息列出...

2020-03-17 19:23:48 4748

原创 R语言3.16 高水平绘图

图中的逻辑命令add=T,表示所绘图在原图上加图,缺省为add=F,即新的图替换原图。axes=F,表示所绘制图形没有坐标轴,缺省值为axes=T。数据取对数log=”x”表示x轴数据取对数,log=”y”表示y轴数据取对数,log=”xy”表示x轴与y轴数据同时取对数。type命令type=”p”,散点图(缺省);type=”l”,实线图;type=”b”,所有点被实线连接;type...

2020-03-16 12:24:44 1324

转载 R语言3.15 综合评价方法

多指标综合评价方法的特点:包含若干个指标,分别说明被评价对象的不同方面;评价方法最终要对被评价对象做出一个整体性的评判,用一个综指标来说明被评价对象一般水平。指标体系的构建原则系统全面、稳定可比、简明科学、灵活操作评价指标权重确定权重是指在评价指标体系中每个指标的重要程度占该指标群的比重方法:德尔菲法(专家打分分法)由评价对象所属领域内专家对各个评价指标的重要程度进行评定,给...

2020-03-15 12:44:48 2919 2

原创 R语言 3.14 多维标度法MDS

定义多维标度法是利用客体间的相似性数据去揭示它们之间的空间关系的统计分析方法。种类1.度量化模型若模型所需要的相似性数据是用距离尺度或比率尺度测得的2.非度量化模型若模型需要顺序量表水平的相似数据,就称为非度量化模型多维标度分析古典函数cmdscale的用法:cmdscale(D,k=2,…)D表示进行多维标度分析的距离矩阵,k表示维度,默认取2维D=matrix(c...

2020-03-14 12:46:01 5480

原创 R语言3.13 绘图

plot函数plot()可绘制数据的散点图、曲线图等。plot(x,y),其中x和y是向量,生成x和y的散点图。plot(x),其中x是一时间序列,生成时间序列图形。如果x是向量,则产生x关于下标的散点图;如果x是复向量,则绘出复数的实部与虚部的散点图。plot(f)plot(f,y)其中f是因子,y是数值向量。第一种格式生成f的直方图,第二种格式生成y关于f水平的箱线图。eg利用...

2020-03-13 19:54:18 1370

原创 R语言3.12 对应分析

对应分析是主成分和因子分析的进一步扩展对应分析的提出是基于因子分析的不足,因子分析方法分为R型因子分析和Q型因子分析。R型因子分析研究变量(指标)之间的相关关系,Q型因子分析研究样本之间的相关关系。但有时不仅关心变量之间或样本之间的相关关系,还关心变量和样本之间的对应关系,这是因子分析不能解释的。对应分析的作用:分析两组或多组因素之间关系的有效方法,在离散情况下,建立因素间的列联表来对数据进行...

2020-03-12 12:07:40 5027

原创 R语言3.11 因子分析因子旋转

因子旋转目的寻找每个主因子的实际意义如果各主因子的典型代表变量不突出,就需要进行旋转使因子载荷矩阵中载荷的绝对值向0和1两个方向分化方法正交旋转Varimax(最大方差正交旋转)斜交旋转PromaxFa2=factanal(X,3,rotation="varimax")Fa2$loadings因子得分计算方法:回归估计法(方差一致),Bartlett估计法Fa1$s...

2020-03-11 15:51:02 6663

原创 R语言3.10 因子分析

因子分析和主成分分析区别主成分分析通过线性组合将原变量综合成几个主成分因子分析通过构筑若干意义较为明确的公因子主成分分析是变异数导向的方法因子分析是共变异数导向的方法联系因子分析是主成分分析的推广因子分析的特点因子变量数远小于原变量数因子变量是一种新的综合因子变量之间没有相关关系因子变量具有明确的解释性用途减少变量个数通过对变量间关系探测,将原变量进行...

2020-03-10 22:41:37 1198

原创 R语言 Kmeans聚类法 主成分分析

egset.seed(123)x1=matrix(rnorm(1000,0,0.3),ncol = 10)#均值0,标准差为0.3的10010正态随机矩阵x2=matrix(rnorm(1000,1,0.3),ncol = 10)#均值1,标准差为0.3的10010正态随机矩阵X=rbind(x1,x2)#形成200*10的随机矩阵H=hclust(dist(X))plot(H)re...

2020-03-09 19:37:09 2177

原创 R语言3.8 聚类分析2

今天临时有事今天学习内容少一点。

2020-03-08 20:56:14 664

原创 R语言3.6 聚类分析1

吵架,英语,考研,论文,烦死了!聚类分析聚类分析方法:系统聚类法、快速聚类法聚类分析的类型:Q型聚类(对样品的聚类)、R型聚类(对变量的聚类)距离矩阵计算函数dist的用法dist(X,method=“euclidean”,diag=FALSE,upper=FALSE,p=2)X数据矩阵,数据框架method包括"euclidean",“maximum”,“manhattan”,“c...

2020-03-06 20:22:20 1694

原创 R语言3.5 判别分析

我的梦想就是做一条咸鱼判别分析多元中用于判别样本所属类型的一种统计分析方法。在已知的分类之下,对新的样本,可以利用此法选定一判别标准,以判定将该新样品放置于哪个类中。判别分析的种类:确定性判别(Fisher型判别)、概率性判别(Bayes型判别)确定性1.线性判别分析eg今天和昨天湿温差x1及气温差x2是预报明天是否下雨的两个重要因子,试建立Fisher线性判别函数,如测得今天x1=...

2020-03-05 20:34:51 2919

原创 R语言3.4

by the way 今天上午教妹妹学英语,下午自己也学了会英语口语,真是让我头疼的口语昨天学习liao回归模型,今天广义与一般线性模型今天的基本内容是:一、数据的分类与模型选择二、广义线性模型函数三、logistic回归模型四、对数线性模型五、一般线性模型一变量的取值类型:因变量y可以为连续变量、0-1变量或称二分类变量、有序变量(等级变量)、多分类变量、连续伴有删失变量...

2020-03-04 20:40:51 1015

原创 R语言3.3

昨天头疼的不行所以学的很少,今天要多学一些把昨天的补回来,因为没见到韩先生所以心情没有昨天帅气了!数据直观分析用到上课时最常见的例子,本来优盘上是有数据的但找不见优盘liao,就现去国家统计局找的数据,非常新鲜首先数据输入,在工作表中选取A1:I32,拷贝之。R中输入X=read.table(‘clipboard’,header=T);X 这是我最喜欢的一种数据输入方式。直观分...

2020-03-03 14:03:09 2374 4

原创 R语言学习3.2

DuangDuangDuangDuang今天上午见了韩先生,心情很帅气٩(๑>◡<๑)۶R语言最常用的语言包:下载语言包现在掌握了两种,更喜欢在编辑栏里输入install.packages(),需要用程序包之前要调用它library()然后运行就可以使用里面的函数liao。!!!R语言区分大小写。数据可视化ggplot2最常用的作图工具,作图美观漂亮,更能涵盖很多复杂的信息。...

2020-03-02 16:33:38 489

原创 R初学者打卡3.1

对我来说灰暗的二月终于过去(啊啊啊啊啊啊啊啊),2.29晚压抑了很久的情绪终于爆发了。在一所非常非常普通的省内一本读完大学的我,接下来要面临的是残酷又艰难的选择,不出意外的我正是350多万浩浩荡荡的考研学子中最普通的一员,虽然国家线还没有出,但对卡在历年分数线上如此尴尬的分数我并不抱太大希望了。今天3月1日,不能再颓废下去了,振作振作!我本科是市场营销后来机缘巧合转到了经济统计学,其实乐观地看我...

2020-03-01 19:36:46 278

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除