数据分析
东哥说AI
专注AI、RPA、Python等前沿技术,分享AI工具、变现思路。关注东哥不迷路,创富路上大踏步。
展开
-
商业数据分析从入门到入职(9)Python网络数据获取
数据来源有很多;网络需要先请求再响应,使用浏览器访问,可以查看页面、页面元素、网络请求等;网页由HTML、CSS、JS等组成,从网页中抓取数据可以使用逐行扫描、属性模型等方式,有不同的工具。抓取BOSS直聘网站需要先预览网站基本情况,了解所需信息的特点;使用requests请求、bs库解析;定位到所需信息,并用循环和函数实现;进一步获取职位详情;最后进行词频统计和词云展示。王者荣耀英雄列表有JSON数据接口,可以通过json库处理;使用selenium模拟访问;将两个列表进行整合;最后实现关键字索引。原创 2020-10-03 10:26:00 · 7760 阅读 · 6 评论 -
商业数据分析从入门到入职(8)Python模块、文件IO和面向对象
被其他程序引用的Python文件称为模块,多个模块组成包,可以通过多种方式导入模块和包;Python标准库提供了大量库,还可以自己安装第三方库。数据保存到磁盘中可以使其持久化,有多种文件读写模式;可以读写文本文件,分段读写可以降低内存压力;可以读写二进制文件;with自动打开关闭文件;可以获取和改变在文件中的当前位置;还可以读写结构化文件。面向对象是Python的重要特性,对象包含属性和方法;定义类并实现属性和方法;可以继承父类,还可以重写父类方法;支持子父类之间调用;支持鸭子类型;可以重写魔法方法。原创 2020-09-29 10:47:46 · 989 阅读 · 3 评论 -
商业数据分析从入门到入职(7)Python基础数据结构及其操作
列表是最常见的容器类型,一般用[]表示,可以创建列表并使用下标访问和切片;有多种方式删除和添加元素;可以排序;赋值需要注意浅复制;列表推导式可以高效创建列表,支持条件和嵌套。元组是不可变的容器,用()表示;与列表相比有自己的特点。字典是由键值对组成的容器,用{}表示;访问字典是根据键访问值;可以更新、删除或清空字典。集合类似于数学中的集合,无重复元素;可以进行集合运算。序列一般都可以转化为列表;序列转化为字典需要有成对元素;zip用于生成新序列;变量类型分为可变与不可变;可以直接用for循环遍历序列。原创 2020-09-26 15:24:52 · 2159 阅读 · 7 评论 -
商业数据分析从入门到入职(6)Python程序结构和函数
if条件判断语句用于根据条件执行操作,可以进行嵌套;循环语句执行重复操作,包括while循环和for循环,while可与else结合使用,for循环经常与range结合使用,break终止循环;文本信息提取可以通过切片实现。函数可以替换代码、优化代码结构,可以根据是否传参和带返回值分类,参数分为位置参数和关键字参数,变量分为全局变量和局部变量。可变位置参数和可变关键字参数可以传入不定个数的参数;函数可以定义文档字符串;函数也可以作为参数;装饰器可以实现额外功能;匿名函数简单方便;报错可以进行异常处理。原创 2020-09-23 15:08:33 · 2069 阅读 · 2 评论 -
数据分析 常见技巧和经验总结
数据分析中有很多常见的经验和技巧。Pandas将dateime类型格式化为字符串,调用strftime()方法进行格式化转换即可。Pandas读取.sql文件,需要先执行.sql文件中的SQL语句将数据导入到MySQL数据库中,再使用pandas从数据库中读取数据。持续更新中。原创 2020-09-22 21:10:44 · 948 阅读 · 0 评论 -
商业数据分析从入门到入职(5)Python基本语法和数据类型
程序是指定计算机进行计算的指令,编程语言具有基本要素和指令;Python具有简洁、支持丰富的特点,应用于数据分析和软件开发;工具选择Anaconda;在命令行中启动jupyter notebook。print函数用于打印字符串;notebook可以进行计算;Python有其基本的语法规范;基本数值数据类型包括整型、浮点型、布尔型和字符串,不同类型间可以进行转换。对字符串的常见操作包括结合重复、提取切片、分割合并、替换和布局等。输出函数时print,输入函数是input,可以用多种方式进行字符串格式化。原创 2020-09-20 21:26:19 · 2053 阅读 · 2 评论 -
商业数据分析从入门到入职(4)初识商务智能
商业智能,是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策;提供了从数据到挖掘出商业价值的全周期整套工具;一个完整的BI应包括人(决策层、管理层、员工)、系统(业务数据库、数据仓库)和企业流程最底层是分散的数据库和遗留数据,ODS与DW不完全一致,ETL即为提取、转化和存储数据,联机事务处理更偏向实际业务,联机分析处理更接近顶层报告。常见的BI包括Oracle、SAP、Microsoft等;Power BI可以实现丰富的功能。原创 2020-09-17 21:21:24 · 912 阅读 · 2 评论 -
商业数据分析从入门到入职(3)Excel进阶应用
对某一类数据汇总时使用分类汇总,需要先进行排序,还可以进行多个汇总;可以对数据输入进行限制,有多种限制方式。Excel公式包括函数、引用、运算符和常量,有多种引用方式;IF逻辑判断有两种结果,可以进行嵌套;COUNTIF用于根据条件进行计数;有多种应用;SUMIF用于根据条件求和。VLOOKUP一般用于按行查找内容,可以嵌套或添加辅助列;可以进行跨表和跨文件查找;模糊查找一般用于区间查找;数字为文本类型时需要转换类型;Match和Index可以结合进行反向查找;可以返回多列;数组也可以实现多匹配查找。原创 2020-09-15 13:37:08 · 2044 阅读 · 11 评论 -
商业数据分析从入门到入职(2)Excel基础
Excel功能强大,可以做出仪表盘、作画等,包括工作簿、工作表和单元格等结构,方便快捷;Excel看重减少重复操作,可以得出透视表、可视化等,可以选择行列等,并根据需要输入,对工作表也可以进行很多操作。行列、区域和单元格可以移动和复制,有多种快速填充方式,还可以进行区域填充,可以新增和冻结窗口,可以对单元格进行美化;Excel包括数值、文本、日期、时间等数据类型,可以进行不同的操作,自定义显示格式。可以根据关键字替换和查找,还支持通配符;排序有多种方式,还可以通过排序进行插入,并根据多种条件进行筛选。原创 2020-09-12 17:10:46 · 974 阅读 · 3 评论 -
商业数据分析从入门到入职(1)商业数据分析综述
分析一个问题需要分析问题的能力;商业数据分析的从业要求包括基础知识、工具、业务能力和软技能;在数据获取、数据处理等5个阶段有各自所需要的技能;评价一个事务需要从多个角度衡量,基本的分析流程包括理解商业问题、准备阶段、数据分析和解释结果,找整个供应链出现问题的主要环节;从点、线、面角度评价业绩;需要用到Excel、Python、MySQL等工具。数据粒度是指数据仓库中数据的细化和综合程度;数据质量和形式也很重要;数据有隐性。数据分析有不同的类型;数据可视化很重要;数据驱动开发团队包括数据分析和项目开发。原创 2020-09-10 17:33:07 · 12004 阅读 · 10 评论 -
Python数据分析实战(3)Python实现数据可视化
数据可视化可以进一步理解数据,matplotlib、pandas可以单独或结合使用。matplotlib是著名的绘图库,可以用pyplot等模块画图,画图的步骤包括导库、创建画图对象、设置属性等,还可以画子图。常见的作图类型包括散点图、条形图、饼图和三维图等;pandas画图主要包括累和图、柱状图和矩阵散点图等,可以分别为序列和数据帧画图;两者结合使用效果更好。订单数据可视化可以展示GMV、商家趋势、订单来源等,并制作数据仪表盘。泰坦尼克号灾难数据主要展示男女乘客比例、船费散点图和直方图、生还人数等。原创 2020-08-29 21:58:47 · 44519 阅读 · 24 评论 -
Python数据分析实战(2)使用Pandas进行数据分析
Pandas主要用于数据读取、透视表、数据聚合等方面,很灵活,主要的两个数据类型是数据帧和序列;基本操作包括序列操作、创建数据帧、行列操作、数据帧基本操作、时间操作等;数据分析包括读取数据、选择数据子集、数据清洗、布尔索引和分组等;可以使用plt、sns等进行数据可视化。大学数据可以进行很多操作和预处理,如查看和设置索引等。鸢尾花数据集可以进行删除切片、赋值、检索、统计和缺失值处理;分析可以进行描述统计、分组、聚合函数等操作。对电影数据分析主要包括平均分、性别差异、评分次数最多、年龄段区别最大等角度。原创 2020-08-25 21:58:38 · 7427 阅读 · 9 评论 -
数据分析 常见异常及解决办法(一)
在使用数据分析工具进行数据分析时有时候会出现一些异常和警告。Jupyter读取数据时提示C引擎不支持正则表达式分割,加入engine参数即可。matplotlib画图显示中文报错missing from current font,需要在配置文件中添加中文字体。DF has no attribute 'ix'可以改为iloc或loc。'Rectangle' has no 'normed',可以去掉该属性或者用density替代。对数据进行分组时警告multiple keys,需要使用双层中括号。原创 2020-08-25 15:07:31 · 4620 阅读 · 4 评论 -
Python数据分析实战(1)数据分析概述
大数据时代,数据呈现爆炸式增长,对数据和数据人才的需求大大提升;数据分析师的任务是分析了、预测未来和优化选择;成为数据分析师必须具备多种技能,利用好Python等工具。Python有多个版本;根据不同系统安装;需要添加环境变量;需要安装pip;可以选择PyCharm开发。Anaconda是科学计算工具;安装后会附带很多工具;conda是包管理和环境管理的工具。Jupyter Notebook是交互式笔记本,运行后即可执行代码;支持Python运算;满足Python语法;保存数据到数据库;进行数据清洗。原创 2020-08-23 21:51:03 · 8593 阅读 · 9 评论