Python数据分析
文章平均质量分 91
play_big_knife
这个作者很懒,什么都没留下…
展开
-
docker容器监控
docker技术作为一种虚拟化技术已经在运营和开发环节中起到了重要的作用。docker可以从远程仓库拉取镜像后在本地运行成为一种容器,不过docker还是会使用宿主机中的资源,宿主机的资源监控也成为一种必然,如何把资源监控进行图形化也是一种诉求。本文主要针对于如何解决docker中资源监控的问题。原创 2022-12-16 19:46:39 · 2453 阅读 · 1 评论 -
Pyflink系列之使用pyflink实现flink大数据引挚的经典案例wordcount
Pyflink系列之使用pyflink实现flink大数据引挚的经典案例wordcount谈到大数据,也是数据,在专业的概念上来讲,其具备三大特征。1、数据量足够大,也就是Volume值相当特别地多。2、数据访问并发量足够高并且实时,可以用Velocity一词反映快速和实时。3、数据的类型越来越多,可以用Variety一词来反映数据的多样性。对于大数据的处理思路,普遍都是建立在通过把数据进行分区分片,并分布到各个横向扩展节点,并由调度节点进行统一管理计算。每一次你执行查询的时候,该查原创 2022-02-14 16:36:29 · 8677 阅读 · 1 评论 -
Python项目实战:使用PySpark分析日志文件
Python项目实战:使用PySpark分析日志文件日志文件是用于记录系统操作事件的记录文件或文件集合,可分为事件日志和消息日志。具有处理历史数据、诊断问题的追踪以及理解系统的活动等重要作用。有了日志文件,就可以了解到网站的访问频率、网站是否受到了恶意的攻击等。Python可以使用PySpark进行日志类文件的分析。这里使用PySpark的原因在于每天的日志量是不断累加的,日志文件中的数据可以说得上是大数据。使用PySpar分析大数据的日志文件也是显得尤为重要,原理也是分布式计算mapreduce的原创 2021-04-25 16:31:06 · 2136 阅读 · 2 评论 -
Python项目实战:使用PySpark对大数据进行分析
Python项目实战:使用PySpark对大数据进行分析大数据,顾名思义就是大量的数据,一般这些数据都是PB级以上。PB是数据存储容量的单位,它等于2的50次方个字节,或者在数值上大约等于1000个TB。这些数据的特点是种类繁多,有视频、有语音、有图片、有文字等等。面对这么多数据,使用常规技术就没法处理了,于是产生了大数据技术。一、大数据Hadoop平台介绍大数据分成了很多派系,其中最著名的是Apache Hadoop,Clouera CDH和 Hortonworks 派系。Hadoop是一原创 2021-04-18 09:41:33 · 7064 阅读 · 0 评论 -
Python实战案例:Seaborn图形化分析数据
Python实战案例:Seaborn图形化分析数据Seaborn是基于matplotlib的图形可视化python工具包。它提供了一种高度交互式界面,使用户能够做出有统计的图表,也可以通过图表直观显示数据的特点。Seaborn是在matplotlib的基础上进行了更高级的API封装,这样使作图更容易,使用seaborn能做出很具有吸引力的图。可以把Seaborn视为matplotlib的有效补充,而不是替代模块,使用Seaborn可以更好的结合matplotlib进行针对性的数据分析图形展示。一、Se原创 2020-12-20 14:37:56 · 1163 阅读 · 1 评论 -
Python实战案例:图书借阅系统TF-IDF的计算
Python实战案例:图书借阅系统TF-IDF的计算图书借阅系统一般是对图书的借书还书进行管理的图书馆管理系统。对于这样的系统,什么样的图书是用户比较感兴趣的,然后在藏书方面进行数量的增加,什么样的图书用户关注度不佳,那么在藏书方面进行数量的减少。这不是单单只靠书的名字来确定的一个结果,最主要的还是对内容的提练,而对数据分析而言就是对关键词的提取。TF-IDF意思是词频/逆词逆,更好的理解词频/逆词频最好还是回归到项目中,因此,这里用图书借阅系统的图书目录表的分析来具体解释TF/IDF的理解,也就是词频原创 2020-12-14 13:40:00 · 924 阅读 · 1 评论 -
Python实战案例:旅游方面博文的数据分析
Python实战案例:旅游方面博文的数据分析一、旅游方面博文数据展示数据分析的出现便利了每个人,企业,竞争者。在以前的时候,如果想要了解市场的动向,就设计了调查问卷或者现场采访的方式,以至于被很多人误以为不法之举。而如今如果在想了解市场,我们只需要简单的设计和建立一个数据库,以此来监测人们的行为和动向,一段时间之后,数据结果自然会告知你一切。在很多的时候,爬虫工程师爬取数据之后,都需要进行后续的数据分析。这里以旅游微博的数据分析为例。旅游微博的数据是以excel表展现的,这个项目中的exc.原创 2020-12-07 16:35:17 · 2224 阅读 · 1 评论 -
Python实战案例:金庸的功夫流派、人物关系的分析案例(下)
Python实战案例:金庸的功夫流派、人物关系的分析案例(下)前面关于金庸小说的门派、功夫、人物及小说正文已经从网站上面下载到了本地,后面就需要通过一些金庸小说中武侠江湖的数据分析。四、射雕郭靖黄蓉的关系分析对于《射雕英雄传》这个剧本来说,郭靖和黄蓉无疑是读者关注的主人公。现在爬取的小说正文已准备就绪,可以通过jieba分词的自定义词典把小说中的人物加载,load_userdict方法可以帮助我们把jieba分词中装入《射雕英雄传》的一些人名,其目的在进行文章分词切分的时候会把这些中文词语.原创 2020-12-01 22:32:57 · 2015 阅读 · 0 评论 -
Python实战案例:金庸的功夫流派、人物关系的分析案例(上)
Python实战案例:金庸的功夫流派、人物关系的分析案例(上)一、项目说明在香港的探案剧中, 经常见到这样的场景,为了分析某一桩谋杀案或者是失踪案,会把案件的可疑人员和与被害者的关系人员全部找出来,构建一个关系网。对关系网中的每一个人分析其做案动机。如下图所示。类似上图这种网络关系的图表,可能使用python的networkx来进行网络关系图的绘制。不过,这里没有案件,这里没有被害人。我们以金庸的人物、武功及小说原文来说明networkx的使用,这也可以说是金庸的功夫流派、人物关系的分.原创 2020-11-23 21:23:27 · 1220 阅读 · 0 评论 -
Python实战项目:Flask人脸识别图书系统(下)
flask人脸识别图书系统(下)四、flask蓝图(blue_print)改写后端的实现用蓝图技术来修改这个程序,首先分析一下,目前后端完成了两个功能,上传人脸头像和验证人脸头像,这两个功能可以设计成两个蓝图开发中的两个模块,上传人脸头像这里叫myupload,可以在pycharm建立一个flask蓝图项目mylantu,再建一个python包文件app,将所有的模块应用都集中一个包文件中管理,这样比较有序。接着建立第一个后端功能的python包文件myupload上传头像,在myupload包文件原创 2020-10-13 13:47:46 · 1215 阅读 · 0 评论 -
Python实战项目:flask人脸识别图书系统(上)
flask人脸识别图书系统(上)涉及内容:爬虫&开发&数据分析a、前端界面的技术——> jquery/bootstrapb、后面逻辑——>flask,前后端半分离技术,使用模块 flask 蓝图(blue_print)/c、收集的图书数据进行数据分析——Pandas模块,结合matplotlib画图d、从网上抓取关于书的名字、价格——>requests爬取京东技术,需要js接口的解析。一、前端功能的实现前端共实现2个需求:A、打开摄像头,B、拍照原创 2020-10-05 13:12:28 · 3398 阅读 · 2 评论 -
Python实战项目:高血压项目详解(下)
四、爬虫数据来源 ⇒ 有关高血压文章、文献、论文——外国网站爬取翻译 ⇒ 爬取文章(高血压——Hypertension)+ 英文翻译成中文软件模块 ⇒ selenium(模拟自动化测试)+ lxml模块版本说明 ⇒ selenium == 3.141.0 + lxml == 4.5.0 translate == 3.5.0步骤(1)利用selenium中的webdrier(2)用get使浏览器进入到对应的网址(3)调用Web.原创 2020-09-21 15:28:07 · 1170 阅读 · 0 评论 -
Python实战案例:高血压项目详解(上)
自创项目:高血压项目详解涉及内容:爬虫&开发&数学分析&数据挖掘a、前端界面的技术——> Juqery Mobile (JQM),俗称“机器猫”b、后面逻辑——>Django,前后端分离技术,使用模块 django restframeworkc、收集的数据进行数据分析——Pandas模块,结合pyechars画图d、从网上抓取在于高血压的文献——>爬虫技术,使用selenium模块进行模拟一、项目开发前的分析1、调查问卷对象:病人&am.原创 2020-09-14 10:07:47 · 1828 阅读 · 0 评论