数据分析
文章平均质量分 83
yxyibb
文艺程序媛
展开
-
数分-工具-Pandas1-预备知识
pandas预备知识原创 2022-08-19 23:42:09 · 189 阅读 · 0 评论 -
数分-理论-大数据8-总结
数分-理论-大数据8-总结(数据分析系列)文章目录数分-理论-大数据8-总结1知识点2具体内容2.1框架综述2.2发展简史2.2.1萌芽(2003-2008)2.2.2快速进展(2009-2014)2.2.3成熟(2015-)2.2.4大数据分析引擎2.3结语3参考1知识点框架综述发展简史结语2具体内容2.1框架综述大数据框架在总体上分为存储引擎和计算分析引擎存储引擎通常用来存储海量数据分析引擎通常用来分析海量数据2.2发展简史2.2.1萌芽(2003-2008)Go原创 2022-01-25 21:23:36 · 1374 阅读 · 0 评论 -
数分-理论-大数据7-Spark
数分-理论-大数据7-Spark(大数据框架)(数据分析系列)文章目录数分-理论-大数据7-Spark(大数据框架)1知识点2具体内容2.1概述2.1.1起源2.1.2诞生2.1.3Spark与Hadoop、MapReduce、HDFS的关系2.1.4生态体系2.2编程模型-核心2.2.1RDD概述2.2.2RDD定义2.2.3RDD五大特性2.2.4RDD操作函数2.3架构原理2.3.1计算阶段2.3.2划分计算阶段2.3.3作业管理2.3.4执行过程2.4实战应用3参考1知识点概述编程模型原创 2022-01-25 20:49:42 · 2751 阅读 · 1 评论 -
数分-理论-大数据6-Hive
数分-理论-大数据6-Hive(数据仓库)(数据分析系列)文章目录数分-理论-大数据6-Hive(数据仓库)1知识点2具体内容2.1数据仓库2.1.1起源2.1.2数仓概念2.1.3体系结构2.1.4存在挑战2.2Hive基础2.2.1概述2.2.2背景2.2.3Hive与Hadoop生态系统2.2.4对比2.2.5模拟实现2.3Hive核心2.3.1数据类型2.3.2数据模型2.4Hive系统结构2.4.1用户接口模块2.4.2驱动模块Driver2.4.3元数据存储模块Metastore2.4.4H原创 2022-01-24 17:36:42 · 2754 阅读 · 0 评论 -
数分-理论-大数据5-MapReduce
数分-理论-大数据5-MapReduce(分布式并行编程模型)(数据分析系列)文章目录数分-理论-大数据5-MapReduce(分布式并行编程模型)1知识点2具体内容2.1分布式并行编程2.2简介2.3 MapReduce函数2.4工作流程2.5执行阶段2.6shuffle过程详解2.6.1过程2.6.2Map2.6.3Reduce2.7以WordCount例子,理解MapReduce2.7.1wordcount过程图2.7.2工作流程2.7.3数据分片2.7.4过程详解2.7.5MapReduce工作原创 2022-01-23 17:35:37 · 703 阅读 · 0 评论 -
数分-理论-大数据4-HBase
数分-理论-大数据4-HBase(分布式数据库)(数据分析系列)文章目录数分-理论-大数据4-HBase(分布式数据库)1知识点2具体内容2.1Hadoop局限2.2简介2.3HBase数据模型2.3.1模型2.3.2相关概念2.3.3数据坐标2.3.4概念视图2.3.5物理视图2.3.6面向列存储2.4实现原理2.4.1HBase功能组件2.4.2表和Region2.4.3Region的定位2.5运行机制2.5.1HBase系统架构2.5.2Region服务器工作原理2.5.3Store的工作原理2.原创 2022-01-13 15:17:03 · 1478 阅读 · 0 评论 -
数分-理论-大数据3-HDFS
数分-理论-大数据3-HDFS(分布式文件系统)(数据分析系列)文章目录数分-理论-大数据3-HDFS(分布式文件系统)1知识点2具体内容2.1背景2.2简介2.3体系结构2.4存储原理2.4.1数据冗余存储2.4.2数据存储策略2.4.3数据错误与恢复2.5数据读写过程2.6安装应用3参考1知识点背景简介体系结构存储原理数据读写过程安装应用2具体内容2.1背景大数据->高效存储->分布式文件系统->HDFS分布式文件系统是管理网络中跨多台计算机存储的文件系原创 2022-01-07 14:29:55 · 706 阅读 · 0 评论 -
数分-理论-大数据2-Hadoop
数分-理论-大数据2-Hadoop(数据分析系列)文章目录数分-理论-大数据2-Hadoop1知识点2具体内容2.1发展2.2简介2.3项目架构2.4安装应用参考1知识点发展简介项目架构安装应用2具体内容2.1发展Lucene:文本搜索的函数库,全文检索引擎Nutch:建立在Lucene核心之上的网页搜索应用程序,加了网络爬虫和一些网页相关的功能GFS(2003):google为存储海量搜索数据而设计的专用文件系统NDFS(2004):分布式文件存储系统Nutch Distr原创 2022-01-05 10:37:15 · 1359 阅读 · 0 评论 -
数分-理论-大数据1-概述
数分-理论-大数据1-概述(数据分析系列)文章目录数分-理论-大数据1-概述1知识点2具体内容2.1大数据基础2.2概念2.3应用2.4关键技术3参考1知识点大数据基础概念应用关键技术2具体内容2.1大数据基础“互联网+”信息时代,信息化数据共享对所占有的数据进行深入分析,实现开发利用,从中发现新知识、创造新价值、提升新能力,取得实实在在的工作成效,才能够真正实现数据的价值2.2概念4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快( Velocit原创 2022-01-04 10:57:24 · 1882 阅读 · 0 评论 -
数分-理论-数据方法
数分-理论-思维方法(数据分析系列)文章目录数分-理论-思维方法1知识点2具体内容2.1公式法2.2对比法2.3象限法2.4二八法/ 帕累托分析2.5漏斗法1知识点公式法对比法象限法二八法/ 帕累托分析漏斗法2具体内容2.1公式法针对某个指标,用公式层层分解该指标的影响因素逐层拆解,细化评估及分析粒度eg:产品销售额低原因销售额=销量*产品单价销售量=渠道A+渠道B+渠道C+。。。渠道销售量=点击用户数*下单率点击用户数=曝光量*点击率销售额:销量问题还是定价问原创 2021-12-29 16:38:28 · 1113 阅读 · 0 评论 -
数分-理论-数据思维
数分-理论-数据思维(数据分析系列)文章目录数分-理论-数据思维1知识点2具体内容2.1结构化思维2.2假说演绎思维2.3指标化思维2.4维度分析思维1知识点结构化思维假说演绎思维指标化思维维度分析思维2具体内容逻辑化思维看待事物,用数据证明归纳:以情况为起点;复杂问题分解成多种单一因素,并归纳整理,条理化演绎:以规则为起点2.1结构化思维金字塔、结构化思维:中心论点出发,衍生出不同层次分论点1.MECE法则:尽可能列出所有思考要点找出关系,分类论点之间相互独立原创 2021-12-28 15:10:41 · 852 阅读 · 0 评论 -
数分-工具-SQL
数分-工具-SQL(数据分析系列)1 知识点1.1 必须掌握的基础按各种条件查询 select … from…where…分组 group by子句 where+update+delete+likewhere语句(like,between,in\or,逻辑判断)聚合函数排序+去重 order by + distinct联结(自联结、内联、外联)inner join + left join + right join存储过程case when窗口函数执行顺序变量空值处理 is原创 2021-10-19 00:27:08 · 253 阅读 · 0 评论 -
Free-Excel
Free-Excel(Datawhale预组队学习)基础点数据源文件导入网页导入表格单元格函数基本构成常用函数嵌套函数数组公式数据统计表基础表统计表交叉表可视化布局基础图表处理快捷操作查找定位排序筛选知识点1 数据源数据: xls(65536行),xlsx文件(1048576行)数据文件叫工作簿,每个工作簿含多个表,每个工作表里的格子叫单元格工具栏1.1文件导入数据-获取和转换数据-从文件/CSV,表设计原创 2021-09-11 15:55:56 · 279 阅读 · 0 评论 -
Mysql必知必会笔记
1 了解SQL1.1基本概念数据库:一个以某种有组织的方式存储的数据集合。数据库:保存有组织的数据的容器(通常是一个文件或一组文件),不直接访问,通过DBMS创建和操纵的容器。数据库软件:DBMS,数据库管理系统表:某种特定类型数据的结构化清单。存储某种特定类型的数据。表可以保存顾客清单、产品目录,或者其他信息清单。存在表中的数据是一种类型的数据或一个清单。每个表有自己名字,标识自己。名字唯一。模式(schema)关于数据库和表的布局及特性的信息。列、数据类型列(colu原创 2021-03-05 19:39:18 · 1398 阅读 · 2 评论 -
数据分析-(学术前沿趋势分析)-task5
数据分析-(学术前沿趋势分析)-task5分析作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系。(主要目标数据,作者‘author’)构建图关系,挖掘作者关系知识点拿到数据集,先看下特征量,找到与论文类别相关的特征(作者‘author’);提取出来处理成常用人名格式’;用pandas看下数据结构(展示前几行,有个大致轮廓);论文第一作者与其他作者构建图;使用图算法,统计图中作者与其他作者联系;Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数原创 2021-01-23 23:47:30 · 307 阅读 · 3 评论 -
数据分析-(学术前沿趋势分析)-task4
数据分析-(学术前沿趋势分析)-task4分析论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类。(主要目标数据,论文‘title’,‘abstract’)知识点拿到数据集,先看下特征量,找到与论文类别相关的特征(论文‘title’,‘abstract’);提取出来(dict)拼成‘text’用pandas看下数据结构(展示前几行,有个大致轮廓);注意,有多个类别、类别有子类别时,需要提前处理一下;类别是多个,所以需要多编码文本分类的典型方法!!!TF-IDF+机器学习分类原创 2021-01-18 17:40:25 · 225 阅读 · 0 评论 -
数据分析-(学术前沿趋势分析)-task3
数据分析-(学术前沿趋势分析)-task3分析论文代码统计,统计所有论文出现代码的相关统计。在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计知识点拿到数据集,先看下特征量,找到与代码相关的特征{‘abstract’,‘categories’,‘comments’};提取出来(dict)用pandas看下数据结构(展示前几行,有个大致轮廓);找到’pages’、‘catego原创 2021-01-17 15:04:52 · 141 阅读 · 0 评论 -
数据分析-(学术前沿趋势分析)-task1
数据分析-(学术前沿趋势分析)-task1分析统计2019年以后,计算机,各方向,论文数量;并可视化展示。知识点拿到数据集,先看下大小、特征量;用pandas看下数据结构(展示前几行,有个大致轮廓)按目标处理数据,目标要选特征,组合处理可视化(matplotlib.pie 图)个人需要补充的点正则化不熟练学习:https://www.runoob.com/python3/python3-reg-expressions.html在线正则表达式测试的⽹网站:https://too原创 2021-01-13 23:07:07 · 267 阅读 · 0 评论 -
数据分析-(学术前沿趋势分析)-task2
数据分析-(学术前沿趋势分析)-task2分析论文作者统计,统计所有论文作者出现评率Top10的姓名。知识点拿到数据集,先看下大小、特征量;用pandas看下数据结构(展示前几行,有个大致轮廓)按目标处理数据,目标要选特征,组合处理可视化(matplotlib.pie 图)个人需要补充的点Q&Acode...原创 2021-01-16 18:07:05 · 340 阅读 · 2 评论