自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 MQTT的初步理解

其中,小型传输服务质量以极小的开销(固定长度的头部仅为2字节)和最小的协议交换来降低网络流量,适用于对实时性和带宽要求较高的场景。MQTT协议,作为一种专为远程设备通信设计的消息协议,凭借其独特的特性在物联网领域大放异彩。如果客户端订阅的主题过滤器与现存的订阅相同,服务器将使用新的订阅替换现存的订阅。通过MQTT协议,设备可以实时发送位置信息,实现对移动物体的跟踪和监控。例如,在工业自动化中,MQTT可以连接各类工业物联设备,实现数据采集、传输、控制等功能,提高生产效率、降低成本、保障人员安全。

2024-06-12 10:49:11 776

原创 对于用户画像的一些基本理解

用来描述商品的,就是商品标签;用来描述业务的,就是业务标签;用来描述用户的,就是用户标签了。常说“小太阳家庭”、“中产阶层”、“爱好时尚”等都是用户标签。有意思的是,我们总是说:生活中不要给轻易给人贴标签。可为什么还要大张旗鼓做用户标签呢?

2024-06-12 09:32:31 652

原创 Redis的一点入门了解

泛指非关系型数据库的,随着web2.0互联网的诞生,传统的关系型数据库很难对付web2.0时代,尤其是超大规模的高并发的社区,渐渐暴露出很多难以克服的问题,而NoSQL在当今大数据环境下发展的十分迅速,Redis是发展的最快的,而且是我们当下必须要掌握的一门技术。核心:redis是将所有的数据全部放在内存中,所以说使用单线程去操作效率就是最高的,多线程(CPU上下文切换消耗的时间相对就比较多),对于内存系统来说,如果没有上下文切换,效率就是最高的,多次读写都在一个CPU上,怎能不快呢。

2024-06-11 10:14:55 1069

原创 番外篇-用户购物偏好标签BP-推荐算法ALS

推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速的推荐出符合用户特点的物品。推荐系统是自动化的通过分析用户的历史行为数据,完成用户的个性化建模,从而主动给用户推荐能够满足他们兴趣和需求的信息的软件系统。推荐引擎需要依赖用户的行为日志,因此一般都作为一个后台应用程序存在于网站中。通过截取网站提供了大量用户行为日志,给用户提供不同的个性化页面或者信息,提高整个网站的点击率和转化率。推荐系统一般都由三个部分组成,前端的交互界面、日志系统以及推荐算法系统。

2024-06-03 10:34:43 1122

原创 用户画像知识点补充——多数据源

不同类型数据采集存储在不同的存储引擎系统(比如HDFS、HBase、Hive、Elasticsearch、MYSQL数据库等),因此需要用户画像标签系统可以支持从不同的数据源读取业务数据,进行构建标签,恰好Spark SQL支持多数据源的加载与保存。针对用户画像标签系统来说,不同标签(业务标签,4级标签)来源于不同的业务数据(订单相关数据、搜搜数据、广告点击数据等)、用户行为数据以及第三方数据(社交数据、信用数据等)构建而来。统一规范的标签可视化管理中台,业务人员可自助生产和维护标签,适应营销策略变化。

2024-06-01 21:59:52 1616

原创 简单说说我对集成学习算法的一点理解

集成学习是一种通过构建并结合多个学习器来提高模型性能的技术框架。它通过生成多个基学习器并使用一种结合策略将它们的预测结果结合起来,以实现更好的预测效果。集成学习在机器学习和数据科学领域中被广泛应用,是提升模型性能的重要工具之一。弱分类器:逻辑回归(Lr)分类算法、决策树(DT)分类算法强分类器相当于弱分类器算法而言进行称呼,往往是多个弱分类器算法组成的,变成强分类器即:三个臭皮匠,顶个诸葛亮。

2024-06-01 20:03:11 866

原创 USG模型-CrossValidator模型调优篇

(叠甲:大部分资料来源于黑马程序员,这里只是做一些自己的认识、思路和理解,主要是为了分享经验,如果大家有不理解的部分可以私信我,也可以移步【黑马程序员_大数据实战之用户画像企业级项目】https://www.bilibili.com/video/BV1Mp4y1x7y7?将数据集划分为两个部分,动态的划分为K个部分的数据集,其中1份数据集为验证数据集,其他K-1份数据为训练数据集,调整参数训练模型。将数据集划分为两个部分,静态的划分,一个用于训练模型,一个用于验证模型。将数据分成4份,其中一份作为验证集。

2024-05-30 22:16:31 945

原创 Pipeline管道自己的一点理解

基于DataFrame API机器学习库Spark ML中提供Pipeline管道构建模型,方便实际项目中开发与部署。通俗地解释,就是一条流水线,它将多个处理步骤或组件串联起来,形成一个有序的工作流程。

2024-05-29 10:37:07 1233

原创 大数据基础知识-Hadoop、HBase、Hive一篇搞定

相应的,数据库由于规模较小,因此可以支持的数据规模较小,一般单张表中能存储百万条数据(最新版的MySQL经过优化,单表中可以存储千万条或者上亿条数据,即使是一亿条数据,也就10GB大小,且此时效率会非常低)。HBase数据存储依靠HDFS,HDFS存储数据具有一次写入,多次读取的特点,其不支持对数据进行修改,但是HBase存储数据为KV型,通过对相同的K再次写入,根据TimeStamp不可逆的特点,每次写入的数据的时间戳都比上一个数据的时间戳大,从而完成版本号的维护和数据的更新。

2024-05-28 10:55:52 3657

原创 番外篇-USG用户购物性别标签(详细思路可以去看RFM篇)

USG用户购物性别标签模型,通过用户购买的产品,确定用户的性别,常常使用算法为:逻辑回归、线性支持向量机、朴素贝叶斯、决策树和树集成学习算法。【购物性别定义】对于用户精确营销来说十分重要:系统会依据商品的名称、商品的颜色和商品的类别等,判断购买者的性别。

2024-05-27 19:26:00 853

原创 USG用户标签性别模型-番外篇前提-知识点补充-决策树

上图完整的表达了女孩决定是否见一个约会对象的策略,其中绿色节点标识判断条件,橙色节点白送hi决策结果,箭头标识在一个判断条件在不同情况下的决策路径,图中红色箭头表示了上面例子中女孩的决策过程。决策树学习采用的是自顶向下的递归方式,其基本思想是以信息熵为度量构建一个熵值下降最快的树,到叶子节点处熵值为0.其具有可读性、费雷速度快的有点,是一种有监督学习。特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准,如何选择特征有不同的量评估方法,从而衍生出不同的决策树,如。其拆分后的子节点也叫做子节点。

2024-05-27 11:32:52 888

原创 决策树算法的一点基础知识补充

信息增量表示的是:得知特征X的信息而使得分类Y的信息的不确定性减少的程度。③递归构建:根据选择的划分特征,ID3算法将数据集划分成多个子集,并对每个子集递归地应用ID3算法,直到满足停止条件(如所有样本都属于同一类别、没有更多的特征可用于划分、达到预定的树深度等)。但就在你准备出门前,你看到了最新的天气预报,这次它明确告诉你,由于突然出现的强冷空气,今天下雨的概率已经上升到了90%。而越集中,则信息熵也越大。一条信息的信息量大小和他的不确定性有直接的关系,要搞清楚意见不确定的事,需要了解大量的信息。

2024-05-27 10:16:20 1314

原创 番外篇-PSM价格敏感度模型(详细实现思路可以去看RFM篇)

简单来说可以使用占比和的值判断用户属于哪一个类别,但是聚类效果完全取决于区间界限设置,所以还是使用聚类算法>= 1 极度敏感0.4~1 比较敏感0.1~0.3 一般敏感0 不太敏感< 0 极度不敏感。

2024-05-18 20:42:21 1345 1

原创 简单说一些我对ID-Mapping的理解

通俗地说,ID-Mapping就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等。这个过程可以形象地理解为用户画像的“拼图”过程。

2024-05-16 21:01:27 665

原创 番外篇-RFE用户活跃度模型(详细实现思路可以去看RFM篇)

在用户生命周期中,对每个用户进行群体划分,有针对性的做分群分层运营,可以更高效的提高营收转换。(用户生命周期是指:用户从注册账号建立起业务关系->完全终止关系的全过程,它动态的描述了用户在不同阶段的大致特征)。用户活跃度、用户价值度的分析在数据分析师的日常工作中会经常碰到,如何根据公司的业务情况对本公司的用户做活跃度和价值度的划分是是一种常规化的分析工作。,仅仅是讲计算指标发生变化,对于RFE的数据来源,可以从企业自己监控的用户行为日志获取,也可以从第三方网站分析工具获得。RFE:访问日志,流量数据。

2024-05-15 22:23:33 1666

原创 RFM模型-算法调优篇

归一化和标准化都是对特征数据进行预处理的方法,它们的主要目的是消除特征之间的尺度差异,使模型在训练时更加高效和准确。在实际应用中,应该根据具体的算法和数据特点来选择合适的预处理方法。当获取最佳模型以后,需要将算法模型保存(比如HDFS文件系统),当需要预测时,先判断是否存在模型,如果存在->加载模型,再使用模型进行预测;否则先训练模型,保存模型,最后在进行预测。

2024-05-15 20:24:39 1017 1

原创 RFM模型与Kmeans聚类算法的一些认识-KMeans篇

KMeans算法是一种无监督学习的聚类算法,它试图将数据点划分为K个集群(或称为簇),使得每个数据点都属于离其最近的均值(即聚类中心或质心)所对应的集群。KMeans算法通过迭代的方式寻找最优的聚类中心,使得每个数据点到其所属集群的聚类中心的距离之和最小。

2024-05-14 15:56:03 882 2

原创 RFM模型与Kmeans聚类算法的一些认识-RFM篇

KMeans是一种聚类算法,它的工作原理是:“人以群分,物以类聚”。想象一下,你有一堆散落的物品,你想要将它们分成几堆。分类的方法有很多种,而KMeans算法会首先。

2024-05-14 15:25:16 1216 2

原创 对ALS算法自己的理解

ALS算法的核心思想:将用户-物品评分矩阵分解为两个低维矩阵的乘积,即将用户-物品的关联关系表示为用户和物品的特征向量表示。具体而言,首先初始化一个因子矩阵,使用评分矩阵获取另外的因子矩阵,交替计算,直到满足终止条件(最大迭代次数 or 收敛条件),此时就可以得到两个因子矩阵,即模型Model。ALS算法构建模型最本质就是两个因子矩阵。

2024-05-12 21:09:51 959 2

原创 用户画像开发-标签模型开发-标签模板(自用笔记-01)

在SparkSQL中提供一套完整外部数据源的接口,方便存储外部存储引擎和保存数据·SparkSQL只提供了对MYSQL和JSON的外部数据源接口,没提供对HBase的接口,需要自己完成会从以下8个方面进行,该内容属于Spark SQL中的高级功能:·自定义HBase Relation·自定义Default Source·测试功能代码·注册数据源·修改标签基类。

2024-05-10 22:13:46 747 4

原创 学生成绩管理系统

学生成绩管理系统 ~

2021-12-31 00:00:00 176

原创 学生管理系统

/*对一个有N个学生的班级,通过该系统实现对该班级学生的基本信息进行录入、显示、修改、删除、保存等操作的管理。功能要求:(1)本系统采用一个包含N个数据的结构体数组,每个数据的结构应当包括:学号、姓名、性别、年龄、备注。(2)本系统显示这样的菜单:请选择系统功能项:a 学生基本信息录入b 学生基本信息显示c 学生基本信息保存d 学生基本信息删除e 学生基本信息修改(要求先输入密码)f 学生基本信息查询(1)按学号查询(2)按姓名查询(3)按性别查询....

2021-12-31 00:00:00 384

原创 图书管理系统

课程设计 图书管理系统简洁版~/*图书管理信息包括:图书名称、图书编号、单价、作者、存在状态、借书人姓名、性别、学号等功能描述1、新进图书基本信息的输入。2、图书基本信息的查询。3、对撤消图书信息的删除。4、为借书人办理注册。5、办理借书手续。6、办理还书手续*/

2021-12-29 20:29:06 104

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除