- 博客(44)
- 资源 (5)
- 收藏
- 关注

原创 做完十年数据分析后的思考与总结
提前做好职业规划,多复盘、多记录、多写作,都是成年人,没必要跟自己过不去,好好沉淀,直到被掘金人挖到的那一刻,真正的实现价值的变现。
2024-01-16 14:33:01
2445
原创 《数学要素》读书笔记
系统性的对数学知识做了整理,包括各种数学概念、生活中的数学知识、几何图形、中学年代的数学知识、大学年代的数理知识、机器学习算法中的数学概念、多维空间,通过各种各样的图对数学做了阐述,不再只是一个概念,更加具体和形象。
2024-11-14 13:26:06
1214
原创 推荐一本python学习书:《编程不难》
Python 的版本持续演进。Python 2.x 和 3.x 系列并存一段时间!建议大家学习时使用最新版本。
2024-11-14 13:19:30
1023
原创 数据分析真这么难找工作吗?
难找,也难招。我觉得会有这么几个方面的因素:1、缺乏职业的认知。大部分人,对数据分析的职业发展、工作内容、职责边界、价值创造都不太清晰,往往是人云亦云,应该会什么、要会什么,说不清楚、讲不明白。2、都在做数据需求。在做数据分析的时候,大部分情况可能是糊里糊涂的做了事情,把需求解决掉了,平时不复盘,也不交流,到面临选择的时候又不知道接下来该往哪个方面提升,怎么提升。3、AIGC大模型挑战。大模型会替代分析师么?会,而且是颠覆性的。以前要写的SQL、Python代码,以及一些基础性的数据整理工作,都可以让AI工
2024-11-04 13:48:04
779
原创 《大话计算机科学》用故事解锁计算思维的神秘面纱!
计算机科学,这门看似遥不可及的学科,其实早已渗透到我们生活的每一个角落。从智能手机到搜索引擎,从推荐系统到人工智能,计算机科学无处不在。将生活中的点滴与计算机科学联系起来,将抽象的知识具象化,计算机科学可以不是晦涩难懂的,是可以如此有趣的。
2024-11-04 13:43:41
1223
原创 概念篇:Spark广播变量
这意味着当我们需要在多个阶段的任务之间使用相同的数据,或者以反序列化形式缓存数据是十分重要的时候,显式地创建广播变量才有用。累加器仅仅在动作操作内部被更新,Spark保证每个任务在累加器上的更新操作只被执行一次,也就是说,重启任务也不会更新。在转换操作中,用户必须意识到每个任务对累加器的更新操作可能被不只一次执行,如果重新执行了任务和作业的阶段。在Scala里,Spark提供更通用的累加接口来累加数据,尽管结果的类型和累加的数据类型可能不一致(例如,通过收集在一起的元素来创建一个列表)。
2024-05-28 13:49:50
745
原创 读后感:《SQL数据分析实战》运营SQL实用手册
其中,DATE表示日期,TIME表示时间,DATETIME表示日期和时间,TIMESTAMP表示时间戳。就好像大模型一样,我们只需要知道怎么用就好。其中,BINARY是定长二进制数据,VARBINARY是变长二进制数据,BLOB用于存储大量二进制数据。1.数值类型:包括整数类型(如INT、SMALLINT、TINYINT等)、浮点数类型(如FLOAT、DOUBLE、REAL等)和定点数类型(如DECIMAL、NUMERIC等)。学习SQL,先有用起来,有了使用价值,之后才是去了解它的原理,让使用更加顺畅。
2024-05-28 13:45:13
1287
原创 要做一个大数据人才,到底应具备哪些技能?
我是西索,最近这段时间,和几个大厂的TL 做分析方面的探讨,在大数据时代要怎么才能发挥更高的数据价值,刚好涉及到这部分的讨论,把讨论结果做个分享,供同行参考。这几年听到最多的一个声音,我们要开始“卷”价值了。那么“你的价值体现是什么?”、“当前还有多少价值可以做”、“接下来我们要创造什么价值”…对于刚入行的同学来说,需要了解大数据分析过程中涉及到的流程和环节,再结合大数据的要素进行能力拆解。数据分析和大数据分析,原始数据量大小不同,导致处理方式的不同。
2024-03-05 20:00:25
1511
原创 做分析用什么工具
而SQL是用来提数跑数的,你必须得会,得熟练,不然时间都耗在这儿了 当你遇到数据量较大或者需要复杂模型,就可以上PYTHON和R了 当然如果是你公司有大数据平台,就可能使用HIVE、SPARK、STOM等等。第二是,多多和别人交流和分享,思维的碰撞,能加深个人的理解和感悟 数据分析,是各行各业都需要的技能,不同行业的数据分析,分析方向和内容也是千差万别。工具是最容易掌握的,真正提高工作效率的,都是大家常提的、公认的,脱离实际场景的内容,提供客户数据标签管理、智能圈人、人群扩散、位置营销、营销效果分析;
2024-03-05 19:57:28
998
原创 如何去评估好业务方提交的数据需求
对部分自己不确定的事情,需要找一个熟悉业务的人来背书,这个人要么是你的同级,要么是你的直属领导。数据作用在哪个部门,会影响到他们什么,这个和第一个问题有些同质,考虑的点不一样,重点在于影响范围上,去了解数据提供到的业务方,他们拿到数据之后会做出什么样的策略。
2024-01-18 10:39:24
476
原创 走向数据之光,成长启示
总而言之,言而总之,几个比较受用的观点:1、可以人人都会数据分析,但不是人人都能成为数据分析师,具有非常强的专业性壁垒;2、数据只是商业的一环,在业务的驱动性没有那么有价值,离开业务的数据只是一类信息;3、我们希望能通过数据解决很多问题,但实际上,数据不是万能的,政策、市场、业务都在时刻变化着,需要结合业务演进;4、做数据分析,不是做单次响应,能做到业务闭环,才是企业真正需要的人才,多元、复合是趋势;
2024-01-18 09:54:00
873
原创 走向数据之光,实践思考
互联网”、“人工智能”、“AIGC”、“5G”、“量子计算”,在这个快速变化的时代下,国家提倡数字经济,企业实施数字化转型,对数字化人才的需求急剧增长,数字化人才日益成为国家创新驱动发展、企业转型升级的核心竞争力。数据决策,原本是为了替代拍脑袋的经验决策,但是人是惯性的,我们慢慢的也会从数据决策,变成拍脑袋得数据结论的经验决策。个人能力的成长,溢出部门职责要求的时候,会形成一种对抗,部门的职责范围扩增,会衍生出组织团队定位的问题,都需要做好日常的思考、复盘和总结,保持持续的学习和交流必不可少。
2024-01-17 09:16:20
1030
原创 走向数据之光,价值驱动
组织视角,需要考虑分工个人视角,需要去考虑成长和期望,需要考虑价值贡献,才能有结果导向,博得更高的财务回报for财务总监、VP、CEO的时候,他们需要的是决策痛点:“明年我们的商业化版本要不要调价”期待:“能不能调,调多少”能力:“能不能分析过往的模式”、“外面的行业模式”、“外界的行业、丛林指数”、“财务ltv模型是不是在变好,单价变高之后,用户保有量变少”结果:“以bp的形式,去思考商业分析”●怎么做问题的质量判断?●你能不能拿到高质量的问题,有没有掌控权,质量不高的问题,永远拿不到好的结果。
2024-01-17 09:15:12
953
原创 做好分析需要看的一些书
在方法论、工具上的使用已经炉火纯青,对于模式和框架也已经了然于胸,这时候往往不局限于一个行业或者一个方向,而是拓面立体,《决战大数据》、《Doing Data Science》、《数据之巅》、《大数据时代》、《智能时代》、《卓有成效的管理者》……一份工作,短则1~2年,长则5~10年。, 要学习hadoop、hive、sprak,我的第一推荐仍然是官网,当然,这里有个前提,就是你的英文阅读能力得特别好,否则的话,还是推荐《Spark大数据分析》、《Data Analytics with Hadoop》
2024-01-16 14:09:32
948
原创 大数据开发工程师需要具备哪些技能?
对于大数据,随着技术的不断迭代,数字化的发展,对数据职能的区分度会越来越细分,持续保持对前沿知识的关注,通过和周边的大佬进行学习,结合场景进行深度应用,在数字化的道路上才能走的更长远。也分很多种类型,包括搜索算法、导航算法、NLP、视觉算法、图像识别、自动驾驶、安全算法、通信算法等,需要掌握的技能差异性也很大,整体来看,有以下共性。前端从业人员主要分布于我国中东、南部地区,其中北京的前端开发工程师最多,其次是深圳、上海、成都、杭州、广州、武汉、南京、长沙和西安;
2024-01-11 16:20:36
2813
原创 商业分析能力是怎样炼成的?
对过去十年,从“信息孤岛,不能用、不好用”到“破开壁垒,可以用、好用”,大数据、云计算、互联网、物联网等信息技术得到了大力发展,人工智能技术飞速提升,打破了科学与应用之间的“技术鸿沟”,图像分类、语音识别、知识问答、人机对弈、无人驾驶等具有广阔应用前景。管理需求变更以确保每个人都在使用最新的文档,并且适当的利益相关者参与有关变更的所有决策,让自己可以回答问题并帮助解决在项目的技术设计、技术实施或测试阶段出现的任何问题,更新和/或重新打包需求文档,使其对技术设计和实施过程有用;,所需要具备对能力矩阵。
2024-01-11 16:16:26
1457
原创 影响最大的七本工具书
结合BAT下企业级5个真实的应用案例,譬如根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式,通过分析需求转化,了解常见问题的解决,例如数据丢失、混乱的数据以及与构建模型不匹配的算法,Python算法包中的详细设置说明和常见故障的解决办法,利用简单示例实现算法原理的理解与落地应用。数据科学,包含了对问题事件的分析、挖掘,需要用到很多前沿的算法,譬如机器学习、深度学习,涉及到的代码、算法、数据集、格式和可视化都需要有完整的项目进行演练,才能实现互联网短平快的目的,高效高产。
2024-01-11 16:13:50
1366
原创 分享篇:我用数据分析做副业
前提是有积累到一定的受众,输出BI软件使用、分析工具、分析方法论、分析案例、大数据场景、算法实践等内容的培训课程,实现知识付费。● 段位高一点可以,可以提供职业规划的指导,如何写好简历、做好职业发展路径规划、选择工作、行业发展等。● 早期的时候,接一些零散的小单,譬如Excel模板、自动化统计工具等,帮助雇主解决。● Python的应用除了数据处理,最大的优势是在数据建模,和小伙伴参与各大平台的。● 在接触一段时间R的时候,会接一些社区内的使用咨询,多是学生,如何在R中实现。● 写专利真的可以很赚钱!
2023-11-15 20:10:25
1070
原创 分享篇:最近在研究的AIGC内容
1、大模型会颠覆一些生产力,让强的人更强归根到底,大模型是工具,和早些年的excel、python、ps没差,能不能用好工具,这个得靠脑子,比较吃框架和构思点,不同的人用下来的结果和效果可能会不一样2、对OL来说真的可以提效很多,但是也伴随着危机在文字整理、框架生成上不用做过多的思考,能够快速的做好归纳总结,但是现在这个阶段的语言还不够凝练,没办法做到揣测人心。
2023-11-15 20:07:54
905
原创 技巧篇:在Pycharm中配置集成Git
在Pycharm右下角,我们可以看到Git:master,表示目前在主分支。Control-->Git 然后在 Path to Git executable中选择本地的git.exe路径。进入1:点击Pycharm导航栏中的VCS -> Get from Version Control -> Git。把Git版本库中的项目代码克隆到当前Pycharm的工作路径中。打开Pycharm, 点击File-->Settins-->进入2:点击Pycharm导航栏中的Git -> Clone。配置git上的地址,
2023-11-15 20:06:04
1202
原创 技巧篇:Mac 环境PyCharm 配置 python Anaconda
在 python 开发中我们最常用的IDE就是PyCharm,有关PyCharm的优点这里就不在赘述。当我们看到上图所示的内容之后,第一反应就是点击 Conda Environmenr,这是不正确的,也是很多人都会遇到的困惑。Anaconda集成了100多个常用的第三方库,在项目的开发中就可以减少使用 pip 命令进行安装。我们选择anaconda3文件夹,并打开,找到 python.app/Mac OS 文件夹,并打开,选中 python,并点击右下角的ok,并打开;这一步最为关键,也是最容易出错的。
2023-11-15 20:05:12
1501
1
原创 经验篇:大数据常用工具集合
Tableau、QuickBI、PowerBI、FineBI、观远BI、GBI、网易有数、QlikView、Oracle Analytics Cloud、SAP Analytics Cloud、Cognos、Google Analytics、Adobe Analytics。
2023-11-15 20:04:30
900
原创 python怎么计算相关系数、偏相关系数?
首先看下相关系数、偏相关系数的计算公式Xi=[1.1, 1.9, 3]Yi=[5.0, 10.4, 14.6]E(X) = (1.1+1.9+3)/3=2E(Y) = (5.0+10.4+14.6)/3=10E(XY)=(1.1×5.0+1.9×10.4+3×14.6)/3=23.02Cov(X,Y)=E(XY)-E(X)E(Y)=23.02-2×10=3.02此外:还可以计算:...
2019-09-12 15:43:14
18513
1
原创 虚拟变量的方法介绍及python实现方式
虚拟变量的定义作用计量经济学中对虚拟变量给出了定义、作用及使用场景,进一步的深入了解可以系统性学习。定义:虚拟变量 ( Dummy Variables) ,用以反映无法定量度量的因素,譬如性别对收入的影响,是量化了的质变量,通常取值为0或1。另外一些名字:又称哑变量、虚设变量、名义变量、属性变量、双值变量、定性变量、二院型变量等作用:引入哑变量可使线形回归模型变得更复杂,但对问题描述...
2019-09-10 13:38:25
10608
原创 python生成自动邮件任务
前言在日常的数据分析过程中,我们常常需要将一些固化的指标定期发送给相关的负责人,以实现信息推送、告警的目的。几个步骤获取数据制表、绘图利用email模块发送部署定时任务1、获取数据参考python获取外部数据源e.g. 通过sql连接数据库或者读取本地excel文件来获取数据# 执行sqldef get_monitor_data(): sql='select * ...
2019-09-06 16:01:11
899
原创 python常用计算类型方法总结
python3常用计算函数总结# pip 安装的时候,如果有些包已经存在,则用ignore忽略即可# pip install moviepy --ignore-installedimport pandas as pdimport numpy as npimport randomfrom scipy import statsimport scipy as spimport matp...
2019-09-05 13:24:07
346
原创 LINUX系统python通过matplotlib绘图中文字体乱码
LINUX系统python通过matplotlib绘图中文字体乱码,解决服务器里面没有字体的问题:参考1:https://www.jianshu.com/p/7b7a3e73ef21参考2:https://www.zhihu.com/question/25404709查看环境input: 终端cat /etc/redhat-releaseoutput:CentOS Linux re...
2019-09-05 13:23:05
1677
原创 python常用计算类型方法总结
### python3常用计算函数总结```# pip 安装的时候,如果有些包已经存在,则用ignore忽略即可# pip install moviepy --ignore-installedimport pandas as pdimport numpy as npimport randomfrom scipy import statsimport scipy as spimp...
2019-09-04 14:14:34
264
原创 SecureCRT自动断开的解决方法
在服务器内生成一个Py文件test.pyimport osimport timei=''print('start heartbeat')while 1==1: time.sleep(60*10) seq=''.join(['=']*10) print(seq,'gogogo',seq)在终端运行python test.py &...
2019-09-04 10:29:16
757
原创 关于sklearn算法学习的一部分总结
前言关于一部分算法实践的代码整理关于算法实践的几个步骤### 载入python相关的包```python# 基础import pandas as pdimport numpy as npfrom collections import defaultdictimport matplotlib.pyplot as pltimport seaborn as snsimport...
2019-09-04 09:55:52
304
国际商业分析师协会IIBA发布《BABOK商业分析知识体系指南》v3英文版
2024-10-22
技巧篇:pyspark常用操作梳理
2021-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人