Python数据分析
文章平均质量分 92
taon1607
这个作者很懒,什么都没留下…
展开
-
英语词云绘制
在数据的探索性分析过程中,对于数值型数据集,我们可以使用pd.info(),pd.describe()来对数据做一些统计汇总,使我们对数据有一个初步的整体认识。我们也可以对其做一些可视化的展示,如使用柱状图,直方图,散点图等等。但是对于文本数据,上述的方式就没有那么有效了。在此我们可以使用词云,来对文本数据做一个直观的展示,使我们对文本数据有一个整体的了解。这一节,我们对英文文本绘制词云。由于英文文本是以空格来分开的,所以不需要做分词处理,可以直接绘制词云。在绘制词云的时候,我们可以找一些模板,直接套用过原创 2020-06-11 20:17:04 · 757 阅读 · 0 评论 -
汉语词云绘制
我们在分析英文文本的时候,可以直接统计词频,是因为英文中每个单词都是天然用空格分开的。而在汉语文本中,词和词都是连接在一起的,所以我们需要先对汉语语句进行分词处理,然后再进行词频统计。我们以汽车广告数据集为例,来进行汉语词云的绘制。主要步骤与英文词云绘制是一致的,但增加了分词和去停用词等步骤。停用词:一些出现频率很高,但对文章表达的主旨没有影响的词语,如,我们,你们,今天,但是,这里…汽车广告数据集链接:链接:https://pan.baidu.com/s/1IMR3wGddfirxA3NdaKHf原创 2020-06-11 20:15:34 · 380 阅读 · 0 评论 -
三维图像的绘制
这一小节,我们来绘制三维图像。二维图像可以表示两个变量在空间中的分布,三维图像可以表示三个变量在空间中的分布。通过对三维数据进行可视化,使得我们可以更加直观的理解数据。在中学的时候,我们接触的函数基本都是一元二次函数,如y=x2+5y = x^2 + 5y=x2+5它的几何表达如下图所示:到了大学的时候,我们接触到函数就变得更加复杂了,如二元二次函数,甚至有更加复杂(维度更高)的函数。z=x2+y2+5z = x^2 + y^2 + 5z=x2+y2+5上述函数表达式的几何图如下图所示:三原创 2020-06-11 20:14:17 · 3484 阅读 · 0 评论 -
决策树绘制
决策树是机器学习的十大算法之一,可用于解决分类和回归问题。决策树的结构很像二叉树,通过一层一层的节点,来对我们的样本进行分类。决策树算法的可解释性非常的好,通过绘制决策树,我们可以很清楚理地解算法的工作原理,同时也方便向别人进行展示。这一节,我们的重点是画决策树,对于决策树算法的原理以及细节,我们不做深入的探讨。我们使用iris数据集,它有150个样本,5个特征。接下来我们就以iris数据集为例,来进行决策树的绘制。iris数据集链接:链接:https://pan.baidu.com/s/1YCyvn原创 2020-06-11 20:12:36 · 3938 阅读 · 0 评论 -
常见的数据可视化工具简介
当我们做数据分析或数据挖掘的时候,常常需要对数据的分析过程和结果做可视化展示。数据可视化可以更加清晰地向听众传达想要表达的信息,同时也降低了大家理解数据的门槛。Python和R作为数据挖掘领域的倚天屠龙,其本身自带的可视化包可以很方便地让大家对自己的数据进行展示。如Python中的matplotlib,seaborn库,R中的ggplot库。Excel是我们工作和学习中用到的最多的数据处理工具,我们使用它存储数据,处理数据,分析展示数据。Excel的主要问题在于,数据量较大的时候,打开表格和处理起来都比较耗原创 2020-06-11 20:05:36 · 1022 阅读 · 0 评论 -
Data Visualization(数据可视化)
如今我们生活的时代被称作大数据时代,随着互联网技术的普及以及即将到来的5G通信技术,使我们比以往任何年代获取数据都变得更加的容易。那么大数据有什么特征呢?一:数据量大,以前我们衡量数据大小所用的单位都是MB、GB,而现在的数据量都是以TB,EB,ZB来计等等。二:数据类型多,如今我们所拿到的数据不单单是数值型数据,我们有语言文字、声音、图像等数据,它们的处理技术就不能采用以往的数据分析技术了,所以就产生了如今的人工智能领域,该领域主要由四大部分组成,机器学习(ML)作为该领域的主体,主要是对各种常规算法的研原创 2020-06-11 20:03:01 · 2153 阅读 · 0 评论