![](https://img-blog.csdnimg.cn/20210711172846914.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据分析
数据分析的相关案例
DataWizard~
只要朝着一个方向努力,一切都会变得得心应手。
展开
-
被玩坏的“网抑云音乐“可视化数据分析
所以爱会消失的,对不对?一、数据说明1、本次分析数据来源网易云音乐热歌榜歌曲列表200首歌曲2、评论数据共抓取 229238 条样例数据, 爬虫可以看我的另一篇博客网易云音乐3、分析用到的工具 pyechars, matplotlib,snownlp,numpy4、数据已上传到网盘有需要可以自行下载下载链接密码:pqls热门音乐评论数量top10Index_idSong_idSong_nameTotal1496370620断线155874121407原创 2020-08-08 16:19:09 · 2905 阅读 · 2 评论 -
Spark环境中Python和Scala对比
Spark环境中Python和Scala对比1.性能对比由于Scala是基于JVM的数据分析和处理,Scala比Python快10倍。当编写Python代码用且调用Spark库时,性能是平庸的,但如果程序涉及到比Python编码还要多的处理时,则要比Scala等效代码慢得多。Python解释器PyPy内置一个JIT(及时)编译器,它很快,但它不提供各种Python C扩展支持。在这样的情况下,对库的C扩展CPython解释器优于PyPy解释器。使用Python在Spark的性能开销超过Scala,但其原创 2020-09-24 15:45:16 · 1463 阅读 · 1 评论 -
简单的数据处理(二)——python数据预处理生成词频统计图、词云
python数据预处理生成词频统计图、词云数据来源请看本人博客下简单的数据处理(一)一、对转换后的结果进行预处理1、我们需要去除每一句里的不可用字符, 例如"",.!@#$%^&*(){}+=-…以及数字[0-9]等这些不可用数据import osimport rewith open("result.txt") as f: for line in f: ...原创 2020-03-24 13:24:31 · 5609 阅读 · 8 评论 -
简单的数据处理(一)——python PDF文件转txt
PDF文件转txt基于Python3.7版本实现数据是我们在网上找到的一篇pdf格式的报告,我把数据放在了网盘里,大家有需要的自行下载地址:链接:https://pan.baidu.com/s/1pmwugCqb_VTDMHVZm2Yu3g 密码:wk2a通过python3 中的pdfminer库实现安装命令:**pip install pdfminer **from pdfmine...原创 2020-03-24 12:55:44 · 752 阅读 · 1 评论