- 博客(34)
- 收藏
- 关注
转载 impala字符串函数总结
json字符串函数使用 get_json_object 来解析 JSON 字段,获取各个属性的值。1、 解析单个 json 字符串select get_json_object('{"a":"123", "b": "456"}', '$.a')-- 123select get_json_object('{"a":"123", "b": "456"}', '$.b')-- 4562、解析多个 json 字符串列表select get_json_object('[{"a":"123", "b"
2022-02-22 17:46:00 1592
原创 MySQL-函数使用记录——窗口函数&JSON字符串
MySQL-窗口函数1. row_number()解释:row_number函数,按照指定的字段分组、排序,并对每组中的数据进行排序编号;参数:row_number() over(partition by 分组字段 order by 排序字段)例子: 每个学生的各科成绩按照分数倒序排列并标记序号: select student_id ,student_name,subject_name, score , row_number() over(partition by st
2021-06-19 18:32:03 259
原创 Excel学习笔记02——数据录入之序号录入&规范数据源之数据验证
序号录入的几种方法:1、连续的序号选中现有单元格,向下拖拽开始-填充-序列,设置序号选项2、自动增减的序号row()函数,减去前面的行数可自动调整序号3、合并单元格的序号使用counta()函数counta()函数:统计非空单元格的数量counta(标题单元格:上一单元格)4、自定义向下拖拽汉字一、二、三……,支持向下拖拽英文A、B、C、D……不支持向下拖拽,需要自定义序列:文件-选项-高级-编辑自定义序列,编辑自定义序列,可手动填写,可选择数据表中的序列;数据
2021-06-01 17:26:27 1524
原创 Excel学习笔记01——学习Excel的两种思路
按照Excel知识点,学习Excel1. 小技巧2. 函数公式3. 透视表4. 条件格式5. 图表按照数据分析流程,学习Excel1. 数据录入2. 数据整理3. 数据统计4. 数据可视化快捷键汇总:快捷键功能Alt + =快速求和Alt + F1快速创建图表...
2021-06-01 16:19:10 359
原创 推荐系统学习笔记——十二、结巴分词用于内容相似推荐
十二、结巴分词用于内容相似推荐计算物品最相似的其他物品,直接用于I2I相似推荐,或者U2I2I推荐以文章为例,进行内容相似推荐,一般需要以下几个步骤:内容获取一般包含ID、标题、介绍、详情等,存储于MySQL数据库中。批量查取这些内容,进行下一步中文分词:提取关键词中文没有空格进行分词,所以需要手动分词,使用TFIDF技术,jieba分词结巴分词,中文分词组件,三种模式:全模...
2020-04-03 10:39:11 671
原创 推荐系统学习笔记——十一、推荐系统解决物品冷启动问题
十一、推荐系统解决物品冷启动问题物品冷启动:新加入系统的物品,因缺少行为数据而无法被扩散推荐;推荐系统解决物品冷启动的两种思路:基于内容的推荐算法使用内容本身的信息方法1:物品相似U2I2I基于协同过滤的推荐算法使用群体行为数据方法2:抖音的多级流量池算法方法1:基于物品相似算法的U2I2I类似功能:看了还看、相关推荐eg:根据商品列表中各个物品的内容属性,...
2020-04-02 11:51:37 776
原创 推荐系统学习笔记——九、推荐系统实现用户聚类推荐
九、推荐系统实现用户聚类推荐聚类分析(Cluster analysis),亦称为群集分析,是一种数据点分组的机器学习技术。给定一组数据点,可以用聚类算法将每个数据点分到特定的组中推荐思路:将用户进行聚类,给每个聚类推荐该类人群喜欢的内容实现用户聚类推荐的技术流程:几个步骤:用户聚类 → 分群热榜统计 → 计算结果缓存 → 在线服务前两步的结果都会存入到高速缓存,然后在线服务使用缓存...
2020-04-01 18:51:23 3716 7
原创 推荐系统学习笔记——八、推荐系统多路召回融合排序
八、推荐系统多路召回融合排序多路召回与融合排序多路召回推荐服务一般有多个环节(召回、粗排序、精排序),一般会使用多个召回策略,互相弥补不足,效果更好。比如说:实时召回- U2I2I,几秒之内根据行为更新推荐列表。用U2I得到你实时的行为对象列表,再根据I2I得到可能喜欢的其他的物品这个是实时召回,剩下3个是提前算好的基于内容 - U2Tag2I先算好用户的偏好tag,然...
2020-04-01 17:46:45 4945
原创 推荐系统学习笔记——七、怎样实现协同过滤推荐系统
七、怎样实现协同过滤推荐系统推荐系统分类:基于协同过滤的推荐系统(Collaborative Filtering):使用用户和物品的行为基于数据统计(记忆)的CF,使用方法:Neighborhood-Based,近邻搜索基于模型(参数学习)的CF,是参数学习最优化的,使用方法:Model-based基于内容的推荐系统(Content-Based):使用用户和物品的信息混合推荐系...
2020-04-01 12:02:40 613
原创 推荐系统学习笔记——六、怎样实现基于内容的推荐系统
六、怎样实现基于内容的推荐系统基于内容的推荐系统(Content-Based Recommendations)地位:最早被使用的推荐算法,年代久远,但当今仍然被广泛使用,效果良好定义:给用户X推荐和之前喜欢过的物品相似的物品,即U2I2I,U2Tag2I基于内容的推荐系统,包含三个步骤:第一:找到一个特征来表达物品,比如说标签、分类、演员、关键词等;电影为例,蜘蛛侠打上动作...
2020-04-01 10:43:47 649
原创 推荐系统学习笔记——五、推荐系统通用技术架构
五、推荐系统通用技术架构一个大量借鉴Netflix架构的推进系统架构。其 数据流图 如下:数据源系统的数据源,主要有 三个:前端的打点日志,以Kafka流形式的数据物品内容数据:存储在MySQL中的业务的物品本身的内容数据,如id、标签、图片等等来自web系统的用户画像数据,存在Hbase,包含两类:用户自身的人口属性的数据,性别、年龄、职业根据用户历史行为,算出用户偏好的数...
2020-04-01 00:19:41 1126 4
原创 推荐系统学习笔记——四、Netfilx经典推荐系统架构
四、Netfilx经典推荐系统架构Netflix公司发布的经典推荐系统架构,一共分为3层:ONLINE(在线层)NEARLINE(近线层)OFFLINE(离线层)这三层分别做自己的事情,配合组合一起完成系统的运行。在线层:就是用户看到的层。 用户和产品(Client,就是电脑端、APP等等)进行交互,用户除了看到内容之外,还会有很多操作,比如说播放、评分、浏览点击、购买等等,这些...
2020-03-31 23:02:56 1836
原创 推荐系统学习笔记——三、推荐系统有哪些召回路径
三、推荐系统有哪些召回路径推荐系统中的i2i、u2i、u2i2i、u2u2i、u2tag2i,都是指推荐系统的召回路径。通过上图理解什么是召回路径:u、i、tag是指图中的节点2是指图中的线i2i:指从一个物品到达另外一个物品,item 到 item应用:头条,在下方列出相似的、相关的文章;算法:内容相似,eg:文章的相似,取标题的关键字,内容相似协同过滤关联规...
2020-03-31 17:58:18 4560 1
原创 推荐系统学习笔记——二、推荐系统包含哪些环节
二、推荐系统包含哪些环节挑战:怎样从海量的内容中,挑选出用户感兴趣的条目,并且满足系统50MS~300MS的低延迟要求?系统需要在50毫秒~300毫秒内进行返回:Netflix要求99%的请求在250毫秒内返回今日头条大概是200毫秒为了解决这个问题,业界会将推荐服务分为3个环节:召回、排序、调整1、**召回:**有两个主要的职责实现巨量的数据降低,比如说亿级别到万级别...
2020-03-31 15:53:58 1112
原创 推荐系统学习笔记——一、为什么学习推荐系统
一、为什么学习推荐系统1、为什么学习推荐系统薪资高拉勾网-推荐系统职位列表职位重要推荐系统的改进可以创造巨大收益,甚至决定企业的成败头条、抖音、快手,都是以推荐系统作为流量分发的主要手段淘宝、京东、亚马逊等商城,为你推荐、猜你喜欢、看了又看等据报道,推荐系统给亚马逊带来了35%的销售收入,给Netflix带来了高达75%的消费,并且Youtube主页上60%的浏览来自...
2020-03-31 15:49:52 626
原创 读《白话统计》笔记——第九章
第九章 置信区间估计——给估计留点余地置信区间(Confidence Interval)估计是用一个区间来估计参数值,字面意思也就是一定信心下的区间。eg:95%置信区间为(0.72,0.96),就意味着有95%的信心认为(0.72,0.96)这个区间包含了总体参数。9.1 置信区间的理论于实际含义95%置信区间:如果从一个总体中重复多次抽取不同的样本,对每一个样本都可以计算一个95%置信区...
2020-03-20 22:58:42 3024
原创 读《白话统计》笔记——第七章
第七章 从“女士品茶”中领会的假设检验的思想7.1 女士品茶的故事故事:一个女士说冲泡奶茶先放茶和先放奶口味不一样,她能辨别出来。Fisher就提出做实验来验证。主要关注验证过程,需要考虑让这位女士辨别几杯奶茶才合理:一杯,猜中的概率是50%;两杯,猜中的概率是25%;三杯,猜中的概率是0.125;需要考虑多少杯都辨别对了,才能证明是她有能力辨别出来,而不是凭运气猜对的(这个概率很...
2020-03-13 00:47:36 631
原创 读《白话统计》笔记——第六章
第六章 寻找失踪的运动员——中心极限定理中心极限定理6.1 中心极限定理针对的是样本统计量而非原始数据中心极限定理:从总体数据中多次抽样,那么理论上,每次抽样得到的统计量与总体参数应该差别不大,大致围绕在总体参数中心,并呈正态分布。eg:3000人的总体,平均身高是170cm(总体参数)。如果从中随机抽样300人计算样本的平均身高,抽取100次,那么所有样本的平均身高应该是以170cm为...
2020-03-12 23:16:44 242
原创 读《白话统计》笔记——第五章
第五章 如何正确展示你的数据5.1 均数和中位数——你被平均了吗如果数据围绕均数均匀的波动,可以用均数来描述;否则最好用中位数来描述正态分布的数据用平均数;偏态分布的数据最好用中位数来描述5.2 方差与标准差——变异的度量离均差平方和(Sum of Squares of deviations from mean,SS)离均差:偏离均数之差,也就是每个数值分别与均数相减之差离均差平方...
2020-03-12 22:03:06 606
原创 读《白话统计》笔记——第四章
第四章 关于统计资料类型的思考资料(data):定量资料(Quantitative Data)连续型资料(Continuous Data):任意值,可以有小数离散型资料(Discrete Data):只能是整数,不能是小数定性资料(Qualitative Data)二分类资料(Binary Data)无序多分类资料(Nominal Data):没有一定的等级顺序,顺序可以...
2020-03-12 21:12:38 1250
原创 读《白话统计》笔记——第三章
第三章 郭靖的内力能支撑多久——谈概率分布概率分布是统计学的基础。3.1累积分布与概率密度的通俗理解累积分布 & 概率密度累积分布,F(x),不断积累最终消耗殆尽,从0到100%。累积的速度可以相等,可以不等概率密度,f(x),概率的密度,在某个点上数据比较集中。累积分布的斜率 & 概率密度累积分布的斜率越大,概率密度也越大密度值等于累积分布中对应点的斜率...
2020-03-12 13:49:01 990
原创 读《白话统计》笔记——第二章
第二章 变异——统计学存在的基础概率论源于赌博变异(Variation),也就是结果存在不确定性。抽样,是部分代表整体。但是样本和整体又有不完全一样的可能性,因此存在抽样误差2.1随机与变异自己理解的变异和随机现象:变异:一件事情发生多次后,产生了不同的结果,这叫变异。变异,是事情发生后结果不一样随机:一件事情,可能有多种结果出现,这叫随机。随机是事情发生前预测的可能性有多种找...
2020-03-11 17:37:03 456
原创 读《白话统计》笔记——第一章
第一章1.1 统计学有什么用作者列出了统计学的3个作用:成为数据工作者助力科研培养理性看待事物的能力对我来说,想从事数据分析,那必然和统计学分不开。不仅要学习统计学的一些方法论,更要学习统计的思想、思维方式。数据分析的职业晋升空间,是数据挖掘、数据科学。这两个岗位,不仅需要统计学思维,也需要有数据基础。这正是我所欠缺的。以后工作上着重补充这两方面的知识。1.2生活世事皆统计生活...
2020-03-11 17:24:50 511
原创 产品经理常用的数据指标(KPI)——付费用户
1. PU(Paying User)有付费行为的用户该指标弱化了统计周期的背景,不常使用。2. CR(Conversion Rate)付费转化率新增用户中,有付费行为的用户数 / 总新增用户数3. ARPU(Average Revenue per User)平均每用户收入衡量一个时间段内某个付费产品或业务收入水平的指标。电信、网络游戏等采用较多。ARPU = 某一时段的总收入 /...
2020-02-25 21:54:39 4645
原创 产品经理常用的数据指标(KPI)——用户
1.RU(Registered Users)注册用户已经完成注册的用户数2. AU(Active Users)活跃用户某一个时间段内,登陆或者使用了某个产品的用户。3. DAU(Daily Active Users)日活跃用户单日登录或者使用了某个产品的用户数(去除重复登陆的用户)通常在游戏类付费网站,会采用DAU指标4. MAU(Monthly Active Users)月...
2020-02-25 21:40:00 2366
原创 产品经理常用的数据指标(KPI)——广告
1. CPM(Cost per Imperssion)千人成本。可以理解为印象收费模式,指的是每千人次印象费用,如果单价为 1人民币/CPM 的话,那么1000人看到这个广告就收1元,10000人就==10元。2. CPA(Cost per Action)意为行动收费模式,指的是用户产生了某些行动(购买,注册,点击等),从而进行相应的收费。3. CPC(Cost per Click)由...
2020-02-24 23:30:05 1474
原创 几种设计模式简述
1. 软件设计模式的概念“设计模式”这个术语最初并不是出现在软件设计中,而是被用于建筑领域的设计中。直到 1990 年,软件工程界才开始研讨设计模式的话题,后来召开了多次关于设计模式的研讨会。1995 年,艾瑞克·伽马(ErichGamma)、理査德·海尔姆(Richard Helm)、拉尔夫·约翰森(Ralph Johnson)、约翰·威利斯迪斯(John Vlissides)等 4 位作者...
2020-02-24 22:56:03 384
原创 jupyter notebook的map函数新生成的列数据类型为category
学习使用jupyter notebook过程中,matplotlib绘图时,有时候有数据类型的限制。比如说:散点图scatter,需要绘图的列时数值型。先看数据:分析时想用sex列进行分析,需要把sex列转换成数值型,我选择了map函数映射出新的一列sex_flagmap_dic={ 'Female':1, "Male":0,}tips['sex_flag'] = t...
2020-01-14 12:24:18 1560 1
原创 python中Selenium简单使用(三)
上篇文章实现了用户登陆,其中用到了send_keys(),实现了给input标签输入值的功能。当时我就想,那怎么取标签里的值呢?然后,就发现了get_atrribute(‘属性名’)和get_property(‘属性名’)以百度首页为例,获取登录按钮的相关属性值:可以看到,登录按钮有href、name、class、onclick等属性,还有‘登录’这个内容以下代码对比显示get_atrri...
2020-01-05 00:38:01 574
原创 Python中Selenium简单使用(二)
用selenium实现手机版百度的登陆,具体的工具和环境上一篇文章里已经说过,这次直接放代码。代码如下:from time import sleepfrom selenium.webdriver.chrome import webdriver# 指定谷歌浏览器驱动的路径chrome_driver = '/home/bzx/python1909_PaCong/Day24/HelloSele...
2020-01-05 00:27:23 150
原创 python中Selenium简单使用(一)
SeleniumSelenium是一个工具,用来模拟浏览器功能,自动执行网页中的js代码,实现动态加载,可以用代码去操控浏览器。学完之后,可以解决百分之99的爬虫问题、和自动化测试问题。selenium 支持通过各种driver(FirfoxDriver,IternetExplorerDriver,OperaDriver,ChromeDriver),驱动真实浏览器完成测试selenium也支...
2020-01-05 00:19:12 326
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人