![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 81
LinBigCat
个人邮箱:
展开
-
python的科学计算库:Pandas
在数据分析中,Pandas是非常重要的一个库,一方面是因为pandas提供的数据结构DataFrame与json的契合度高,转化起来很方便,另一面,如果我们日常的数据清理工作不是很复杂,只要几行Pandas的代码就可以对数据进行规整。Pandas 中的两个核心数据结构:Series和DataFrame,它们分别代表着一维序列和二维的表结构。SeriesSeries是一个定长的字典序列,说是定...原创 2019-01-15 15:49:59 · 435 阅读 · 0 评论 -
数据可视化工具
做数据可视化的工具有很多,我们可以分为大概这几种:1.商业智能分析软件2.可视化大屏3.前端可视化组件4.编程语言一、商业智能分析软件最目前最著名的商业智能分析软件有Tableau和PowerBI,另外国内的帆软公司推出的FineBI也是受国内很多企业的青睐。Tableau是国外的,收费的,PowerBI是微软出品的,也是收费的,可以和 Excel搭配使用,通过PowerBI来呈现E...原创 2019-01-31 14:57:46 · 1046 阅读 · 0 评论 -
数据采集
我们知道,做数据分析,数据是第一位,所以首先我们应该拥有自己的数据,如果我们自身没有足够的数据,那就需要做大量的数据采集,现在用python做数据采集也就是我们常说到的爬虫是最广泛的,基本上可以会经历三个过程:1. 使用request库爬取网页内容,这个时候网页已经拉到我们本地了。2. 使用XPath解析内容。XPath是XML+Path的缩写,也就是XML路径语言。它是一种用来确定XML文档...原创 2019-01-26 20:43:09 · 5780 阅读 · 0 评论 -
数据清洗
前面我们简单的介绍了数据采集,现在假设我们有了数据了,那是不是就可以直接做数据分析了呢?别着急,我们采集得到的数据往往没有那么完美,还需要一个特别关键的步骤,那就是数据清洗。先说一下数据清洗的几条规则:1.完整性: 对于现有的数据,我们需要判断单条数据的完整性,需要统计的字段是否完善。2.全面性: 观察某一列的全部数值,比如在Excel表中,我们选中一列,可以看到该列的平均值、最大值、最小值...原创 2019-01-26 20:44:01 · 3488 阅读 · 0 评论 -
数据集成
什么是数据集成数据集成就是将不同的数据源存放到同一个数据储存中(如数据仓库),从而方便后续的数据挖掘工作。比如我们有多个数据源,有文本文件,Excel文件,mysql数据表,为了方便数据的统计分析,我们需要把他们存放到同一个容器中,可以是数据库也可以是文本文件,这样一个过程我们就叫数据集成。数据集成的其中一种架构:ETL:ETL是英文Extract、Transform和Load的缩写,顾名思...原创 2019-01-27 21:27:11 · 4770 阅读 · 0 评论