![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
4.大数据实践课
国民小跟班
喜欢总结、极简主义、观点分享、懒人懒办法系列
展开
-
大数据技术(第9节实验课----数据相关性的分析)
实训1、2 找最小相关系数import numpy as npimport pandas as pddata=pd.read_csv(r"G:\大数据实验数据库\data.csv",encoding="GBK")print("相关系数矩阵为:\n",np.round(data.corr(method="pearson"),6))实训3 找相关行数import pandas a...原创 2019-12-13 21:38:16 · 403 阅读 · 1 评论 -
大数据技术(第8节实验课----数据分类和数据筛选)
# 一、对篮球运动员分类import pandas as pdt1=pd.read_csv(r"G:\大数据实验数据库\3.大数据实验数据\data.csv")t2=t1.iloc[:,1:]from sklearn.cluster import KMeanscls=KMeans(n_clusters=5) #建立模型pre=cls.fit_predict(t2) #进行分类pr...原创 2019-12-08 16:59:40 · 540 阅读 · 0 评论 -
大数据技术(第8节实验课-----机械学习和分类预测)
第1题P196 实训1注意:test_size系数为0.2 randomstate系数为123第1行提交数据: 第3问标准化后,wine最后一行的 Alcolhol列(酒精浓度)的数据,保留6位有效数字(MinMax)第2行提交数据: 第4问wine数据集的PCA降维后,最后一行Alcohol列(酒精浓度)的数据是多少?保留6位有效数字#第一题 标准化和PCA降维import pan...原创 2019-12-01 12:37:39 · 216 阅读 · 0 评论 -
大数据技术(第7节实验课-----pandas之表格补充,标准化,离散化,等分位)
第1题在ftp://125.220.71.247/%BC%C6%CB%E3%BB%FA%D1%A7%D4%BA/dingsong/bigdata/1122exp/ 目录下有一个timu1.csv,里面有三个缺失的数据,请你把这三个缺失的数据的index找出来,求和 作为一行提交的数据利用拉格朗日插值法,求这三个数值(取缺失数据的最接近的前3个数字和后三个数字)求出的缺失数字之和的整数部分作...原创 2019-11-22 22:01:52 · 591 阅读 · 0 评论 -
大数据技术(第6节实验课-----pandas之表格的合并,缺失数据填补)
第1题 P134 按照任务5.1的要求要求将detail表和order表,按照 detail.order_id和order.info_id主键合并,求合并后数据 最后20行,所有数字之和(不包括index),并且提交到ftp://125.220.74.10时间不加,文件名中的数字不加。#第一题import pandas as pdimport numpy as npimport sq...原创 2019-11-15 15:59:00 · 811 阅读 · 1 评论 -
大数据技术(第5节实验课-----pandas处理表格信息和TCP通讯)
第一题 TCP通信程序,要求: 用tcp连接 125.220.74.10:6001,并且发送你的学号,之后你会收到一个乘法表达式,例如 12288*9933把这个乘法表达式计算出来(要求用程序计算)然后再发送回服务端,如果结果正确,你会在http://125.220.74.10:90/result.txt中找到你的学号import threadingimport socket#...原创 2019-11-13 18:17:27 · 441 阅读 · 0 评论 -
大数据技术(第4节实验课-----pandas处理表格信息)
实训1读取并查看P2P网络贷款数据主表的基本信息import numpy as npimport pandas as pd#1.基本信息def basic_information(detail): print("1.属性列表为:",detail.columns) print("2.数据的维度为:",detail.ndim) print("3.数据矩阵的格式",...原创 2019-10-27 18:45:12 · 7870 阅读 · 1 评论 -
大数据技术(第3节实验课----利用Matplotlib绘制各类图像)
实训1 分析1996-2015年人口数据特征间的特征import numpy as npimport matplotlib.pyplot as plt#扩展语言,使中文可以使用plt.rcParams["font.sans-serif"]="SimHei"plt.rcParams["axes.unicode_minus"]=False#读取数据t=np.load('G:/大数据实验...原创 2019-10-18 19:11:12 · 831 阅读 · 0 评论 -
大数据技术(第2节实验课-----Numpy的使用)
一、数据分析统计对花萼长度数据统计分析例子#注意:中文分号和英文分号的区别,容易导致语句出错import numpy as npiris_sepal_length =np.loadtxt("e:\iris_sepal_length.csv",delimiter=",")#读取文件数据的方法iris_sepal_length.sort()#对文件排序print("排序后的花萼长度表为:...原创 2019-10-11 21:39:52 · 3853 阅读 · 1 评论 -
大数据技术(第1节实验课-----Ipython和Jupyter Notebook的使用)
一.Ipython的使用ipython的使用技巧安装好Anaconda后,在引擎框里面输入ipython即可使用右键单击文本框上方,就会出现菜单栏,单击属性可以调节文本框,字体,背景颜色等ctrl+l 表示清屏按上下键可以执行可以返回到上一行已经写过的代码拥有代码自动补全功能操作:写一部分代码后按tab键即可如果自动补全模块丢失cmd打开dos窗口命令行输入:pip...原创 2019-09-29 18:52:27 · 354 阅读 · 0 评论