自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 针对不同场景:你会评估吗?

评估ROI定义:涉及收入、成本营销活动,例如代金券或优惠券的ROI:这里收入就是参加活动的用户GMV,也可以是新增用户数、口碑、传播、用户留存都可以作为次要指标来进行评估内容类(植入)活动:这里收入包含比较广,大概可以从销售数据、传播数据、互动数据、转化率(与往期同类活动或者市场大致水平对比)活动效果评估理清活动业务逻辑选择观测指标,根据活动目的活动目的无非就是五类,拉新、促活、提留存、变现、传播对比预期目标活动前后往期同类活动同期其他活动从用户出发评估差异(ab实

2021-11-08 19:54:11 161

原创 数据分析小思路

数据分析方法论在我看来,数据分析方法论是从数据去寻找规律的一套方法,偏向于业务,尽管不多,但需要不断去熟悉锻炼这方面的敏感度,而且分析时往往涉及多个角度也就是多个方法。漏斗分析顾名思义,漏斗分析是基于用户行为路径,能够科学反映用户行为状态以及从起点到终点各阶段用户的转化率情况。比如针对电商中的老用户,他的行为路径就是浏览——点击——(加购)——付费,拆解成更加细致的流程有利于问题定位,进而提供改进措施,功能优化等等。拆解分析这里我认为拆解分析一般用于拆解那些核心指标,因为核心指标一般用来反映产品

2021-11-08 17:46:23 82

原创 数据分析漫漫长路之SQL(函数)

函数这里总结的一些sql知识点,在于梳理夯实自己的学习基础,有志同道合的朋友可以一起交流交流呀~聚合函数min(列)、max(列)、avg(列)、count(列)、sum(列),这里都会忽略NULL值去整合数据。count(*)、count(列)、count(1)的区别转换函数用来将一种数据类型的表达式转换为另一种数据类型的表达式cast(expression AS data_type)日期函数getdate():获取当前日期date_format(date,format):用于以不

2021-09-30 11:46:54 99

原创 Spark知识点2

The Apache Hadoop project devolops open-source software for reliable, scalale, distributed computing.可靠、大规模、分布式计算和开源!要想学习Spark必定是绕不过Hadoop的,MapReduce和HDFS构成Hadoop的主要内容,MapReduce用来处理(processing),HDFS用来存储(storage)。Hadoop要求数据应均匀分布在各个机器上,快速写入磁盘(步步为营)——而这就.

2021-03-25 16:57:16 252 1

原创 Spark基础知识点

分布式文件系统(Hadoop Distributed File System)当数据集达到一定规模,单机无法处理把数据分布到各个独立的机器上(多机器共同协作)网络HDFS优缺点优点:构建在廉价的机器上使用大数据处理高容错硬件错误流式数据访问大规模数据集简单的一致性模型(一次写入,多次读取)适合批处理,移动计算而不是数据缺点不适合低延迟数据访问不适合小文件存储数据库Orale数据库Orale RAC集群,一台数据库,多个实例。Orale Exadata 硬件

2021-03-25 16:37:38 59

原创 Spark——java.io.IOException: Cannot run program “python3“: CreateProcess error=2, 系统找不到指定的文件。

当我在搭载Spark环境后,可以cmd中使用Scala正常运行wordcount。但在cmd输入pyspark后,虽然可以执行创建简单的rdd,但就是执行不了,会遇到java.io.IOException: Cannot run program "python3": CreateProcess error=2, 系统找不到指定的文件错误。上面显示我找不到python3,在网上找了好多,说是Anaconda要配置python.exe坏境。当我按照网上在环境中配置,但还是显示上面的错误。突然想到我缺的是p

2021-03-24 23:22:23 6592 21

原创 Python中matplotlib画图出现中文乱码问题

以前遇到的解决方法差不多都是代码解决,每次都要在画图前写同样的代码,这下终于看到了永久解决中文乱码问题的方案了,Yes!!!python中matplotlib画图中文乱码的解决方法

2021-03-07 15:22:21 102

原创 超简单!!!解决Github图片显示不出

解决Github图片显示不出看过很多方法,最简单的就是这个,不用修改hosts,一步到位!从根源上解决github图片显示不出来的问题

2021-03-07 10:50:58 218

原创 Datawhale 知识图谱小鲸鱼学习之Task 5 Neo4j 图数据库查询

Datawhale 知识图谱小鲸鱼学习之Task 5 Neo4j 图数据库查询Neo4j 图数据库 查询基于知识图谱的问题系统 主体类 AnswerSearching 框架介绍代码分模块介绍Neo4j 图数据库 查询连接neo4j数据库之后,在浏览器中使用http://localhost:7474/browser/查看数据库首先查看图数据库导入的数据的知识图谱我们首先查询症状:输入语句: MATCH (d:Disease)-[:HAS_SYMPTOM]->(s)

2021-01-17 21:49:43 117

原创 Datawhale 知识图谱小鲸鱼学习 之 Task 4 用户输入->知识库的查询语句

Datawhale 知识图谱小鲸鱼学习 之 Task 4 用户输入->知识库的查询语句什么是问答系统?问答系统简介Query理解Query理解介绍意图识别槽值填充主体类 EntityExtractor 框架介绍命名实体识别任务实践命名实体识别整体思路介绍代码介绍构建 AC Tree使用AC Tree进行问句过滤使用 相似度进行实体匹配意图识别任务实践意图识别整体思路介绍特征构建使用朴素贝叶斯进行文本分类参考资料什么是问答系统?问答系统简介问答系统(Question Answering Syste

2021-01-15 22:55:55 223

原创 Datawhale 知识图谱组队学习 之 Task 3 Neo4j图数据库导入数据

知识图谱小鲸鱼队学习之Task 3 Neo4j图数据库导入数据Neo4j环境配置及安装Neo4j数据导入1. Neo4j 账号密码设置2. 导入数据3. 知识图谱展示4. 主体类 MedicalGraph 介绍5. 主体类 MedicalGraph 中关键代码讲解参考资料Neo4j环境配置及安装这里可以参考网上的资料自行进行配置环境及安装Neo4j数据导入1. Neo4j 账号密码设置要将数据导入 Neo4j 图数据库,首先需要 进入 build_graph.py 类中,在 类 MedicalGr

2021-01-13 19:27:00 110

原创 知识图谱组小鲸鱼队学习之Task 2 基于医疗知识图谱的问答系统操作介绍

基于医疗知识图谱的问答系统操作介绍运行环境搭建知识图谱启动问答测试代码目录介绍运行环境python3.0及以上neo4j 3.5.0及以上jdk 1.8.0搭建知识图谱 python build_graph.py 注意,代码要运行几个小时。运行结束之后,打开浏览器进入网址:http://localhost:7474/browser/,可以看到我们导入的数据的知识图谱,如下:启动问答测试 python kbqa_test.py 代码目录介绍data:存放数据i

2021-01-12 20:11:44 133

原创 知识图谱小鲸鱼队之 Task 1 知识图谱介绍

知识图谱小鲸鱼队之 Task 1 知识图谱介绍知识图谱多关系图实体知识图谱的价值怎么构建知识图谱呢?数据获取信息获取知识融合知识处理知识图谱的具体构建技术实体关系识别技术(Named Entity Recognition)关系抽取技术(Relation Extraction)实体统一(Entity Resolution)指代消解(Disambiguation)知识图谱的存储Neo4jNeo4j实战1. 创建节点2. 创建关系3. 创建出生地点4. 图数据库查询通过 Python 操作 Neo4jneo4j模

2021-01-11 21:02:45 285

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除