- 博客(17)
- 资源 (4)
- 收藏
- 关注
原创 【Numerical Python Chapter2】Numpy 学习记录
import numpy as npnp.ndarray #NumPy最重要的一个特点是其N维数组对象ndarray,它是一系列同类型数据的集合,以0下标为开始进行集合中元素的索引numpy.ndarraydata = np.array([[1,2],[3,4],[5,6]])dataarray([[1, 2], [3, 4], [5, 6]])查看数组的类型或者属性(attribute)type(data)numpy.ndarraydata.n
2021-03-17 00:22:12
282
原创 Python解决去哪儿旅游网站的数据清洗工作
一、原始数据的一般处理过程(在清洗之前对原始数据的处理)#1#导入数据df = pd.read_csv("qunar_freetrip.csv")#2#对索引进行处理(如果有问题的话)df.head() #结果对于第一列有点问题#index_col=0,将第一列变为indexdf = pd.read_csv("qunar_freetrip.csv", index_col=0)#3#看数据的基本情况df.shapedf.info() #每列的情况,类型typedf.describ
2021-03-11 14:34:41
1042
原创 【高级数理统计R语言学习】9 无序多分类分析
一、背景数据集展示了人们休闲的相关数据。试分析年龄、性别、教育程度、月收入对人们的休闲方式是否有显著影响以及有怎样的影响。二、要求和代码#1#利用R读取数据data9 <- read.csv(file="E:/hxpRlanguage/homework9.csv",header=TRUE,sep=",",stringsAsFactors = F,na.strings=c("","NA"))#2#显示数据的前10条记录data9[1:10,]#3#对变量重新命名,一律用英文字母命
2021-02-09 23:14:15
2103
原创 【高级数理统计R语言学习】8 生存分析
一、背景数据集展示了X市常住外来人口的基本情况,包括人口学变量和一些行为特征。假定这些变量的取值在观测期间内都保持不变,仔细查看和分析数据情况,试利用生存分析法完成下面的题目。二、要求和代码#*********************************前期数据处理***********************************#1#①利用R读取数据。注意:不要事先改动样本的数据内容。data8 <- read.csv(file="F:/hxpRlanguage/homework
2021-02-09 23:12:19
655
原创 【高级数理统计R语言学习】7 定序回归
一、背景数据集展示了用户使用微博的基本情况,包括参与微博社区的层次,用户的年龄、性别、教育程度、月收入和使用微博的时间,试分析这些变量对用户参与微博社区的层次有什么样的影响?同时,对用户参与微博社区的层次作出预测。二、要求和代码#**************************变量关系问题*****************************************#1#利用R读取数据。注意:不要事先改动样本的数据内容。#na.strings = c("NA") 的意思是文件中的缺失数据
2021-02-09 23:10:06
2364
4
原创 【高级数理统计R语言学习】6 二值变量回归
一、背景数据集展示了X市高学历外来人口的一些情况。试分析性别、年龄、教育程度和月收入对高学历外来人口的再迁移是否有显著影响以及有怎样的影响。二、要求和代码#*****************************变量关系问题*************************************#1#利用R读取数据集。注意:不允许改动样本的数据内容。data6 <- read.csv(file="F:/hxpRlanguage/homework6.csv",header=TRUE,se
2021-02-09 23:07:43
1406
原创 【高级数理统计R语言学习】5 协方差分析
一、背景数据集展示了已迁离X市的高学历外来人口现在的月收入、性别、迁入X市和迁离X市的日期、教育程度和职业这些方面的数据。试分析性别、在X市的居住时间、教育程度和职业对外来人口的收入是否有显著影响以及有怎样的影响。要求分析教育程度与在X市的居住时间、职业与在X市的居住时间的交互作用对收入的影响。二、要求和代码#**************************变量关系问题******************************#1#利用R读取数据,将变量名重新命名。data5 <-
2021-02-09 23:02:57
1406
3
原创 【高级数理统计R语言学习】4 方差分析
一、背景数据集展示了已迁离X市的高学历外来人口现在的月收入、教育程度和职业数据。试分析教育程度和职业对外来人口的收入是否有显著影响以及有怎样的影响。二、要求和代码#1#显示数据集的结构。data4 <- read.csv(file="F:/hxpRlanguage/homework4.csv",header=TRUE,sep=",")data4 <- data4[,1:4] #删除异常列data4 <- na.omit(data4) #删除有空值的行cnames <-
2021-02-09 23:00:21
610
原创 【高级数理统计R语言学习】3 非线性回归
一、背景数据集展示了目前尚在X市居住的外来人口的月收入和年龄。试用合适的曲线描述月收入与年龄的关系,并写出估计月收入的函数表达式。二、要求使用R分析数据。需要依次展示以下内容:(1) 展示数据集的结构。(2) 显示前10条数据记录。(3) 绘制因变量与自变量的散点图。(4) 找到合适的曲线拟合数据。若使用抛物线拟合数据,求出曲线拐点对应的自变量值。解释参数估计的含义。(5) 写出估计月收入的函数表达式。三、代码#1#将数据文件读入R中setwd("F:\\hxpRlanguage")
2021-02-09 22:53:21
753
原创 【高级数理统计R语言学习】2 多元线性回归
一、背景数据集展示了X市外来人口的相关数据情况,包括出生年月、收入、初次来到X市的日期、迁离X市的日期和现在的朋友数量。现假设外来人口的年龄、在X市的居住时间和朋友数量影响他们的收入。试加以证明。二、要求和代码一、分析收入的影响因素#1#展示数据集的结构data2 <- read.csv(file="F:/hxpRlanguage/homework2.csv",header=TRUE,sep=",")str(data2) #显示的结果有一列是多余的,需要删除data2 <- da
2021-02-09 22:47:18
1221
1
原创 【高级数理统计R语言学习】1 一元线性回归
一、背景数据集展示了X市外来人口初次来到X市的时间、迁离X市的时间、现在的收入。现假设外来人口在X市的居住时间影响他们的收入。试加以分析和证明。二、要求使用R处理和分析数据,不能使用Excel处理数据。具体要求如下:(1) 展示数据集的结构。(2) 显示前10条数据记录。(3) 将变量名重新命名为英文变量名。不能使用Excel处理数据。(4) 计算自变量的最小值、中位数、均值、最大值和标准差,要求保留2位小数。注意:因变量转换为对数。(5) 计算因变量(转换为对数值)和自变量的相关系数,要求
2021-02-09 22:35:27
1310
原创 利用python做微信公众号标题的词云图
一、标题数据的获取1.通过微信公众平台后台网页,左侧的统计模块来下载相应的数据,单独把标题复制出来,形成文件形式;2.通过网页爬虫来爬取。二、词云图制作过程1.引入需要的库import wordcloudimport jieba2.读取文件并查看文件#读取文件wf = open("title.txt","r",encoding='utf8').read()print(wf)3.利用jieba分词cut_text = jieba.lcut(wf,cut_all=False)res
2021-02-09 22:01:57
790
原创 【数据仓库与数据挖掘】分类分析练习
分类分析练习要求1.给定数据文件input.csv,各属性说明见图片文件。2.请使用自己熟悉的、合适的算法进行建模,并对结果进行分析与可视化。3.使用多种评估指标对不同算法建立的模型比较与评价。4.代码要尽可能多加注释,最后导出为html文件提交。0- 准备工作#0#导入所需要的库import pandas as pdimport matplotlib.pyplot as pltimport numpy as npfrom sklearn.preprocessing import La
2021-02-03 01:10:08
366
原创 【数据仓库与数据挖掘】数据预处理与特征工程练习
数据预处理与特征工程练习要求(数据挖掘的前期处理工作——提高数据质量)1. 使用文件qunar_freetrip.csv和Narrativedata.csv进行数据预处理。2. 使用文件digit recognizor.csv做特征选择和降维。3. 代码要尽可能多加注释。0- 准备工作#0#导入所需要的库import pandas as pd import numpy as npfrom sklearn import preprocessingfrom sklearn.model_sel
2021-02-03 00:38:00
759
原创 使用for循环和while循环,打印九九乘法表(普通打印+存入Excel)
for i in range(9): i += 1 j = 1 while i>=j: print("%d*%d=%d"%(i,j,i*j),end="\t") j += 1 print()打印结果:1*1=1 2*1=2 2*2=4 3*1=3 3*2=6 3*3=9 4*1=4 4*2=8 4*3=12 4*4=16 5*1=5 5*2=10 5*3=15 5*4=20 5*5=25 6*1=6 6*2=12 6*3=
2021-01-30 16:12:01
1846
原创 Python金融大数据分析练习题(基础+股票预测)
一、使用numpy/pandas编程实现以下题目0.首先引入所需要的包import numpy as npimport pandas as pd1.创建一个长度为8的一维全为0的ndarray对象,然后让第5个元素等于1nd1 = np.zeros(8)nd1[4] = 1nd12.创建一个元素为从20到59的ndarray对象np.arange(20,60)3.使用np.random.random创建一个10*10的ndarray对象,并打印出最大最小元素nd3 = np.ra
2021-01-30 16:03:47
6012
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人