- 博客(91)
- 收藏
- 关注
原创 测试数据分析
![在这里插入图片描述](https://img-blog.csdnimg.cn/20190526211448246.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzMxODY4MTQ3,size_16,color_FFFFFF,t_70)
2021-07-09 19:16:27 367
原创 不想做人肉跑数机,数据分析师要掌握沟通能力
“那谁谁给个数!”是数据分析师最讨厌听到的话。如果有更讨厌的,就是在你快下班的时候,突然一个电话打过来“那谁谁快给个数,我们总监马上要看,如果有问题让你老板亲自给我们总监解释!!!”——听完砍人的心都有了。于是很多小哥小姐姐挂着“数据分析师”的title,实际上干着人肉跑数机的活,日写sql两千行。结果一年下来,我分析了啥?连个像样的分析项目经验都没有。还经常被人嫌弃:“不就是个数吗,搞那么慢,人家外边都人工智能大数据分析了呢!一定是我们的分析师能力不行”。想摆脱这种尴尬状况,单纯靠跳槽和买彩票差不多。
2021-07-09 19:15:08 343
原创 北、上、广、深数据分析职位分析
2016年12月,麦肯锡全球研究院发表了一份名为《 分析时代 : 在数据驱动的世界中竞争 (The Age ofAnalytics:Competing in a Data-DrivenWorld)》的报告,该报告指出:未来社会,大数据分析仍将在五个领域拥有很大的潜力,其中对于数据分析人员的需求的增长率为每年12%,美国从事大数据专业的毕业生增长率为7%,这种情况也意味着美国每年有25万人的数据分析师缺口,麦肯锡还预测接下来的十年内美国可能需要200万到400万之间的能将数据分析和商业有效结合到一
2021-07-09 19:12:18 350
原创 百度业务运营部_数据分析师(产品运营)岗位要求详解(1)
首先,附上百度业务运营部_数据分析师(产品运营)岗位的招聘详情:业务运营部_数据分析师(产品运营)所属部门: 百度 工作地点: 北京市 招聘人数: 若干公 司: 百度 职位类别: 产品 发布时间: 2016-04-11工作职责:-对百度重点行业的行业现状、核心企业、市场动态、发展趋势、互联网营销推广等做深入分析,形成数据研究报告-解读分析报告,并根据分析结论,与运营一起商讨运营策略-运用数据分析手段,对百度的客户行业和属性形成自己的分类方式职责要求:-大三或者研一、研二在校生,数学、计算机或
2021-07-09 19:09:54 561
原创 案例▍Python实战 爬取万条票房数据分析2019春节档电影状况
题图|《流浪地球》海报 作者|量化小白上分记 36大数据获授权转载今年春节档全国共有8部影片上映,对于影片的对比分析已经非常多,孰优孰劣,每个人心里都有一杆秤,不再赘述。本文着重分析影片票房的地域差别,爬取了年后两周各地万余家影院的票房数据,一起来看看各地影院今年春节档表现如何,非官方统计,数据一定不准确,看看就好。1.数据说明分影院的票房数据来自中国票房网: ** http://www.cbooo.cn/cinemaday **网站提供日票房排行榜的前100名和周票房的前一万余名,本文爬取包.
2021-07-09 19:09:32 1432
原创 安卓运行Jupyter Notebook操作指南,不用电脑也能做数据分析!
作者 | Datawhale来源 | Datawhale(ID: Datawhale )** 【导读】今天介绍下Pydroid 3这款堪称是Android上最易用且功能最强大的Python3IDE,帮助你在安卓上也可以完美使用Jupyter notebook,还有手把手安装教学参考。接下来,快快进入Pydroid3的世界吧! **近20年来,在TIOBE编程语言排行榜中,C、C++和Java一直排在前3位,远远领先于其他组件。而Python作为近来广受大家喜爱的编程语言,终于在2018年..
2021-07-09 19:07:43 4788 3
原创 安装python及数据分析相关安装包小结
由于重装系统以及 64 位电脑安装了 32 位 python 导致数据量导入过大时,出现 memoryerror错误,干脆总结安装过程,省得每次安装去找教程和资源。1. Python 安装 从官方网站下载 python ,各种版本可供选择:[ https://www.python.org/downloads/windows/](https://www.python.org/downloads/windows/)这里选择的是 64 位 2.7.11 ,下载地址为:
2021-07-09 19:06:35 224
原创 阿里天池:母婴用品电商数据分析(Power BI 可视化)
本项目数据来源: 阿里天池数据集 数据概览: 本数据为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据,数据集包含两个表格:(sample)sam_tianchi_mum_baby(base 表):包含用户ID、儿童出生日期、儿童性别的基本信息(sample)sam_tianchi_mum_baby_trade_history(trade 表):包含用户ID、类别ID、购买数量、购买时间、商品ID及属性等信息![在这里插入图片描述](https://img-
2021-07-09 19:05:29 1640
原创 阿里数据分析师实习生笔试题2014年3月29日
时间为90分钟题型:10道选择,3道简答,2道分析题回忆版选择题:1)若 r=0,则两者的关系:我选择的是 没有线性关系2)以下两种行为分别对应哪种分类算法的评价标准:行为1:警察如何判别某人是小偷行为2:小偷是如何被识别出来(+_+行为记不清楚,请记得的童鞋补上)选项是Recall Precision ROC的组合,这题不会3)以下哪项对Hadoop的描述是不正确的4)HIVE的描述5)公司员工的平均工资是3000,中位数是2500,众数是2000,则下面哪个说法不正确:我选择的
2021-07-09 19:04:44 170
原创 spark高级数据分析实战---随机森林实现
**package** mllib.tree**import** org.apache.log4j.{Level, Logger}**import** org.apache.spark.mllib.evaluation.MulticlassMetrics**import** org.apache.spark.mllib.linalg.Vectors**import** org.apache.spark.mllib.regression.LabeledPoint**import** org.apa
2021-07-08 19:25:06 865
原创 Spark大数据分析与实战:Spark Streaming编程初级实践Spark Streaming编程初级实践
Spark Streaming编程初级实践一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作:[Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420](https://blog.csdn.net/weixin_47580081/article/details/108647420?spm=1001.2014.3001.5501)[Scala及Spark的安装
2021-07-08 19:24:26 1536
原创 Spark大数据分析与实战:RDD编程初级实践Spark大数据分析与实战:RDD编程初级实践
Spark大数据分析与实战:RDD编程初级实践一、安装Hadoop和Spark具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作:[Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420](https://blog.csdn.net/weixin_47580081/article/details/108647420?spm=1001.2014.3001.5501)[Scala及Spark的
2021-07-08 19:22:56 1515
原创 Spark SQL 初探: 使用大数据分析2000万数据
去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce
2021-07-08 19:22:06 523
原创 SEM数据分析之做好关键词报告
做SEM的我们都知道,百度凤巢系统的后台其实功能很强大,有几大数据报告报表十分的有用,可以帮助我们更好的进行优化账户工作,也为我们优化操作提供了强有力的依据。像搜索词报告、无效点击报告、地域报告、高级样式报告都是SEM数据分析的一个重要依据,那么今天我们就来讲讲其中的关键词报告。对于数据分析中,关键词报表SEMer应从哪几个方面入手分析?关键词报表是数据分析中重要的部分,所以小D分享一下如何分析每日关键词报表。为什么分析关键词报告身为做百度竞价推广的SEMer,分析关键词报表是每一个SEM操作人员必
2021-07-08 19:21:24 498
原创 R语言与数据分析之四:聚类算法2
<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法。</span>[/code]首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点)
2021-07-08 19:20:14 142
原创 R语言与数据分析之二:绘图
图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大的吐血展示功能。今天我由简单到复杂分别和小伙伴们分享如何用R语言画出各位想要的图形。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1EkYlSJt-1625743022224)(http://static.blog.csdn.net/xheditor/xheditor_emot/default/struggle.gif)]
2021-07-08 19:17:23 694
原创 R语言小例子---简易的数据分析和画图
目前有 10 名儿童(男)的年龄和身高的数据( 虚构数据) ,感兴趣的是升高的分布及体重和年龄的关系。年龄(岁)|体重( kg )|年龄(岁)|体重( kg )—|---|—|---4|95|6|1164|97|7|1205|106|7|1215|108|8|1266|114|8|125使用函数 c() 以向量的形式输入儿童的年龄和身高数据。然后,使用一些内置的函数获得身高的均值和标准差,以及年龄和体
2021-07-08 19:15:22 590
原创 R语言数据分析、展现与实例(01)R语言数据分析、展现与实例(01)
R语言数据分析、展现与实例(01)统计参考书:《统计建模与R软件》用于管理R工作空间的函数:![用于管理R工作空间的函数](https://img-blog.csdn.net/20170209204410057?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMjE1MDM2MA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast)常用R对象:
2021-07-08 19:14:46 558
原创 R语言1-面板数据分析全过程 附代码用途
R语言1-面板数据分析全过程 附代码用途面板数据常见于计量经济学领域,本质上是一种线性回归方法。截面数据和时间序列数据的组合可以更多的反应数据情况,同时也需要克服二者都存在的问题。数据初步处理在Excel中将原数据进行初步处理和排列并另存为csv格式,建议将文件存放于便于提取的路径下。![因变量为export.value,自变量分别为gdp、sagr、iagr、tagr、gni.p、food…其中apec和close是哑变量。在这里插入图片描述](https://img-blog.csdnimg
2021-07-08 19:12:48 3212 2
原创 Python数据分析与挖掘实战中的错误总结与分析(持续更新)1.前言2.错误分析2.3第五章挖掘建模部分
1.前言博主研究生第一年已经成为过去式了,上了课,修了学分。接下来两年就是要搞搞学术了,方向为:大数据分析与数据挖掘。从此篇开始,就将学习过程中一些问题和想法与友交流之。这里是博主在学习中看的一本书《python数据分析与挖掘实战》中基础篇的一些代码规范以及参考方法,供大家学习。2.错误分析由于第一章和第二章较为简单,这里就不在赘述,涉及到官方文档,大家一定多看看。2.1第三章数据探索部分代码3-1餐饮营销数据异常值检测代码这个代码主要是利用箱型图来将异常值进行显示,按照书上敲完代码执行后,
2021-07-07 16:01:34 784 1
原创 python数据分析与挖掘实战---航空公司客户价值分析
航空公司客户价值分析一、 背景与挖掘目标**** 客户关系管理是企业的核心问题,关键在于客户的分类:区别无价值客户,高价值客户,针对不同客户群体有的放矢投放具体服务方案,实现企业利润最大化的目标。各大航空公司采取优惠措施喜迎更多客户,国内航司面对客户流失和资源未完全利用等危机,因此建立一个客户价值评估模型来实现对客户的分类。二、 分析方法与过程本次的分析目的在于客户价值识别,客户价值识别最常用的模型是 RFM模型:R(最近消费时间间隔)F(消费频率)M(消费金额)。 ****飞机票价取决于飞
2021-07-07 15:47:12 1077 1
原创 Python数据分析与挖掘进阶篇1——异常值分析、一致性分析、数据特征分析等(附实例!)
阅读提示本文将提到Python数据分析与挖掘中的 数据探索与数据特征分析目录* * 阅读提示 * 一、数据探索 * * 1、数据质量的分析 * 2、异常值的分析 * 3、一致性分析 * 二、数据特征分析 * * 1、分步分析 * 2、对比分析 * 3、统计量分析 * 4、周期性分析 * 5、贡献度分析 *
2021-07-07 15:42:43 1154
原创 Python数据分析与可视化学习笔记(一)数据分析与可视化概述1.1 数据分析1.2 数据可视化1.3 数据分析与可视化常用工具
数据分析与可视化(一)1.1 数据分析1.1.1 数据、信息与数据分析1.1.2数据分析与数据挖掘的区别1.1.3数据分析的流程1.2 数据可视化1.3 数据分析与可视化常用工具1.4 Python数据分析与可视化常用类库1.1 数据分析1.1.1 数据、信息与数据分析数据 :数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。是信息的表现形式和载体,可以是符号、文字、数
2021-07-07 15:42:05 646
原创 Python数据分析系列之——王一博微博转发量分析1 数据说明2 粉丝结构初步分析3 粉丝画像最后的话
首先说明一下本人不是王一博粉丝,也不讨厌王一博,只是最近在学习python数据分析,就随便找了一条微博转发量来分析一下,只是刚好抽中了王一博哈~但是有些时候的确令人疑惑,为什么wyb随随便便发一条微博(不管是推广还是自拍)都可以有一百万加的转发量,这有点强哈~~~所以今天我们就选一条微博爬取其转发用户数据分析一下。本人本着客观的态度分析,如果不正确的地方欢迎批评指正。文章目录1 数据说明2 粉丝结构初步分析2.1 是否存在水军转发现象?2.2 实际参与的粉丝统计3 粉丝画像最后的
2021-07-07 15:41:03 1988 2
原创 Python数据分析示例(2)Day3
说明:本文章为Python数据处理学习日志,主要内容来自书本《利用Python进行数据分析》,Wes McKinney著,机械工业出版社。电影数据分析所需文件在Day2中下载,接下来要用到的一些文件的文件格式如下: users.dat文件格式 1::F::1::10::48067 2::M::56::16::70072 3::M::25::15::55117 ratings.dat文件格式 1::1193::5::978300760 1:
2021-07-07 15:40:14 185
原创 python数据分析实战之电商交易分析
文章目录* * * 1、明确需求和目的 * 2、数据收集 * 3、数据预处理 * * 3.1 数据整合 * * 3.1.1 加载相关库和数据集 * 3.1.2 数据概览 * 3.2 数据清洗 * * 3.2.1 缺失值处理 * 3.2.2 异常值处理 * 3.2.3 多余记录的删除 * 3.2
2021-07-07 15:37:23 721
原创 python数据分析十六:pandas的面元划分和哑变量(get_dummies()、哑变量)
数学名词 离散化和面元划分 :就是分组,进行相应的计算 对于数据进行离散化和面元划分的前提条件是:连续变化的数据 例如下面是一组人的年龄数据,现在要按照年龄划分为不同年龄的4组(即把数据拆分为4个面元), 分别为“18到25”、“25到35”、“35到60”及“60以上。为了实现分组,需要使用pandas的cut函数: pandas返回的是一个特殊的Categorical对象。你可以将其看作一组表示面元名称的字符串。实际上它含义一个表示不同分类名称的leve
2021-07-07 15:36:51 683
原创 Python数据分析师面试之“完美世界”数据分析师实习生
class A{ private: static int s_value;};[/code]类的静态成员是该类所有实例的共用成员,也就是在该类的范畴内是个全局变量,也可以理解为是一个名为A:????_value的全局变量,只不过它是带有类安全属性的;道理很简单,因为它是在程序初始化的时候分配的,所以只分配一次,所以就是共用的;类的静态成员必须初始化,道理也
2021-07-05 21:59:39 205
原创 Python数据分析入门 matplotlib数据可视化基础【一】掌握绘图基础语法与常用参数
matplotlib数据可视化基础【一】掌握绘图基础语法与常用参数掌握pyplot基础语法创建画布与创建子图添加画布内容保护与显示图形设置pyplot的动态参数掌握绘图基础语法与常用参数掌握pyplot基础语法import matplotlib.pyplot as pltpyplot基本绘图流程:![在这里插入图片描述](https://img-blog.csdnimg.cn/20200425221300162.png?x-oss-process=image/wa
2021-07-05 21:59:00 427
原创 Python数据分析——目录Python数据分析目录
Python数据分析目录这是整个数据分析系列的目录。如果打不开的,那就证明它只是个计划,我会尽快把它完善的。1. Python数据分析00——Ubuntu18.04安装Anaconda3 2. [ Python数据分析01——Numpy模块学习 ](https://blog.csdn.net/weixin_44080811/article/details/90550219)3. [ Python数据分析02——Pandas模块学习(一) ](https://blog.csdn.net/weixi
2021-07-05 21:58:22 399
原创 python数据分析利用python进行数据分析
所有资料汇总学习: [ 点这里](https://blog.csdn.net/weixin_39778570/article/details/100052454)利用python进行数据分析数据在这里下载[ github连接 ](https://github.com/13days/Python-sklearn-DataAnalysis/tree/master/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90/homework)记得点个star!!!里面还放着一些陈年老代
2021-07-05 21:57:30 144
原创 Python数据分析--结果导出导出为.xlsx文件导出.csv文件将文件导出到多个Sheet
结果导出导出为.xlsx文件设置文件导出路径设置Sheet名称设置索引设置要导出的列设置编码格式缺失值处理无穷值处理导出.csv文件设置文件导出设置索引设置要导出的列设置分割符号缺失值处理设置编码格式将文件导出到多个Sheet导出为.xlsx文件设置文件导出路径 df.to_excel(excel_writer = r'/Users/faye/Desktop/python学习/test导出.xlsx')设置Sheet名称 df.to
2021-07-05 21:56:44 1048 1
原创 python数据分析基础之图与图表——多图并列
#_author:"zhengly"#date:2018/8/30'''除了使用matplotlib创建标准统计图,还可以使用panda来创建其他类型的统计图本例实现:利用panda创建一个条形图和箱线图,并将它们并排放置'''import pandas as pdimport numpy as npimport matplotlib.pyplot as pltplt.style.use('ggplot')#创建一个基础图和两个子图fig,axes=plt.subplots(nrows
2021-07-05 21:53:56 605
原创 Python数据分析基础技术之scikit-learn(史上最全面)
1、scikit-learn 简介scikit-learn (sklearn) 是基于 Python 语言的机器学习工具。 是简单高效的数据挖掘和数据分析工具 可供大家在各种环境中重复使用 建立在 NumPy ,SciPy 和 matplotlib 上 开源,可商业使用 - BSD许可证sklearn 可以实现数据预处理、分类、回归、降维、模型选择等常用的机器学习算法。 sklearn 是基于 [ NumPy](https://blog.
2021-07-05 21:52:57 2007 1
原创 Python数据分析工具,主要有哪些?
python数据分析工具一:IPythonIPython是一个在多种编程语言之间进行交互计算的命令行shell,最开始是用python开发的,提供增强的内省,富媒体,扩展的shell语法,tab补全,丰富的历史等功能。IPython提供了如下特性:更强的交互shell(基于Qt的终端)一个基于浏览器的记事本,支持代码,纯文本,数学公式,内置图表和其他富媒体支持交互数据可视化和图形界面工具灵活,可嵌入解释器加载到任意一个自有工程里简单易用,用于并行计算的高性能工具python数据分析工具二:Gr
2021-07-02 21:47:57 349
原创 python数据分析的交叉分析和分组分析 -第三次笔记python数据分析 -第三次笔记
python数据分析 -第三次笔记– 1.交叉分析– 2.分组分析1.交叉分析交叉分析的含义是在纵向分析法和横向分析法的基础上,从交叉、立体的角度出发,由浅入深、由低级到高级的一种分析方法。这种方法虽然复杂,但它弥补了“各自为政”分析方法所带来的偏差。其实主要的 用法 是:用于分析两个变量之间的关系。交叉分析一定要和假设检验连用会更好首先,作者的理解是:交叉分析,一定是二维的,需要两个因子,要不无法交叉,那既然交叉了,就可以做成透视表,这两个因子一个为行,一个为列,然后做假设检验,判断
2021-07-02 21:45:35 530
原创 python数据分析处理:PUBG Finish Placement Prediction
PUBG Finish Placement Prediction (Kernels Only)比赛网址:https://www.kaggle.com/c/pubg-finish-placement-prediction/data问题背景:在PUBG游戏中,每场比赛最多有100名玩家,玩家可以根据在自己被淘汰时还有多少玩家活着从而获得比赛排名。在游戏中,玩家可以拿起不同的武器攻击敌人,也可以恢复被击倒但未被杀死的队友,驾驶车辆,游泳,跑步,射击,并承担相应的结果-例如跑太远或被敌人杀死。为了赢得比赛
2021-07-02 21:42:33 868
原创 Python数据分析笔记
第一章 NumPy基础:数组和矢量计算1.NumericalPython是高性能科学计算和数据分析的基础包。它提供了一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组ndarray;用于对整组数据进行快速运算的标准数学函数(无需编写循环);用于读写磁盘数据的工具以及用于操作内存映射文件的工具;线性代数、随机数生成以及傅里叶变换功能;用于集成由C、C++、Fortran等语言编写的代码的工具;提供了一个简单易用的CAPI。2.NumPy最重要的特点就是其N维数组对象(即ndarray),是一个
2021-07-02 21:38:49 620 3
原创 python数据分析——pyecharts折线图全解(小白必看)1.基本折线图2.连接空数据(折线图)3.多条折线重叠4.平滑曲线折线图5.阶梯图6.变换折线的样式7.折线面积图8.双横坐标折线图9.
折线图是排列在工作表的列或行中的数据可以绘制到折线图中。折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。下面我给大家介绍一下如何用pyecharts画出各种折线图1.基本折线图 import pyecharts.options as opts from pyecharts.charts import Line x=['星期一','星期二','星期三','星期四','星期五','星期七','星期日'] y=[100,2
2021-07-02 21:33:33 1735
原创 python数据分析pandas包入门学习(一)pandas数据结构介绍
本文参考《利用python进行数据分析》的第五章 pandas入门1 pandas数据结构介绍pandas有两种主要的数据结构:series和DataFrameSeries: 一种类似于一维数组的对象,由一组数据(各种Numpy数据类型)以及一组与之对应的数据标签(索引)组成。![](https://img-blog.csdn.net/20161116151629053?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fon
2021-07-02 21:32:43 182 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人