数据读取与可视化展示

  • 实验说明

实验视频网址:在视频:开发准备,Python实现线性回归教程-慕课网,选择《3-4 回归分析实战》小节1-6分钟的内容

Iris数据下载地址:UCI数据库

安装pandas的命令:conda install pandas

安装matplotlib命令:conda install matplotlib

二、实验内容:

数据读取与可视化展示

三、实验详细步骤

1、使用pandas工具读取CSV格式的数据(data = pd.read_csv(file, header=None))

2、查看读进来数据的格式(type(data))

3、输出前5条数据(data.head(5))

4、将DataFrame格式数据里的value值读出来,即Numpy格式的数据(data = data.values)

5、输出前5条数据 (data[0:5, :])

6、对前两维数据进行可视化(matplotlib)

  1. 在frp中下载iris数据集
  2. 在pc中导入isis相对路径到那边,方便读取。

 

 

4.使用pandas工具读取CSV格式的数据(data = pd.read_csv(file, header=None))

 

5.查看读进来数据的格式(type(data))

 

6.输出前5条数据(data.head(5))

 

 

7.将DataFrame格式数据里的value值读出来,即Numpy格式的数据(data = data.values)

 

8.输出前5条数据 (data[0:5, :])

 

9.对前两维数据进行可视化(matplotlib)

 

每天都有着大量的用户关注各类新闻,特别是随着各种网络通信技术的发展,网络应用的普及使得每时每刻都有着大量的人们通过网络进行各类新闻的搜索,产生海量的日志数据。过去使用单机的方式通过 MySQL数据库对这些数据进行存储,但是积累下来的用户日志数据量达到了一定的级别,当一台电脑无法存储这么庞大的数据时,就产生了海量数据的存储问题。如果使用网络文件系统对数据进行分开存储,那么就无法对大量的实时和离线数据进行分析处理,处理结果也无法以一种更加直观的方式进行展示。 为了解决海量新闻日志数据的存储问题,在新闻业务中得到实时的用户搜索内容的排行并进行可视化显示,得到公众关注的重点,从而达到针对用户关注的重点进行推送、广告的投放、及时消除不良的用户等目的。本文在对以上需求进行调研后,通过Flume日志收集系统对各个服务器中的日志文件进行读取合并,并将数据划分成离线流数据和实时流数据两条路线。离线数据通过Hadoop集群处理、存储,通过Hive完成离线数据处理和分析,并最终通过Hue实现对用户的可视化展示。实时流数据通过Kafka消息队列临时存储,并通过Spark流处理,最终将结果存放在 MySQL数据库中,通过Java程序获取,最终通过Echarts插件在前端对实时数据进行展示。 本文讲述了系统研究的背景、目的和意义。对系统所使用到的相关技术的原理进行了介绍;对系统进行了总体的需求分析并且按照系统实现的功能划分了相关模块;在进行了需求分析后,对系统进行了具体的硬件平台构建以及各个功能模块设计实现,最终完成对用户搜索日志数据的结构化处理和可视化展示。 最后对课题工作进行了总结,并分析了未来系统中可改进的地方。
评论 1 您还未登录,请先 登录 后发表或查看评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
©️2022 CSDN 皮肤主题:游动-白 设计师:我叫白小胖 返回首页

打赏作者

小锅尽力写代码

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值