原来是猪猪呀-CSDN博客

原创 MQTT的初步理解

其中，小型传输服务质量以极小的开销（固定长度的头部仅为2字节）和最小的协议交换来降低网络流量，适用于对实时性和带宽要求较高的场景。MQTT协议，作为一种专为远程设备通信设计的消息协议，凭借其独特的特性在物联网领域大放异彩。如果客户端订阅的主题过滤器与现存的订阅相同，服务器将使用新的订阅替换现存的订阅。通过MQTT协议，设备可以实时发送位置信息，实现对移动物体的跟踪和监控。例如，在工业自动化中，MQTT可以连接各类工业物联设备，实现数据采集、传输、控制等功能，提高生产效率、降低成本、保障人员安全。

2024-06-12 10:49:11 776

原创对于用户画像的一些基本理解

用来描述商品的，就是商品标签；用来描述业务的，就是业务标签；用来描述用户的，就是用户标签了。常说“小太阳家庭”、“中产阶层”、“爱好时尚”等都是用户标签。有意思的是，我们总是说：生活中不要给轻易给人贴标签。可为什么还要大张旗鼓做用户标签呢？

2024-06-12 09:32:31 652

原创 Redis的一点入门了解

泛指非关系型数据库的，随着web2.0互联网的诞生，传统的关系型数据库很难对付web2.0时代，尤其是超大规模的高并发的社区，渐渐暴露出很多难以克服的问题，而NoSQL在当今大数据环境下发展的十分迅速，Redis是发展的最快的，而且是我们当下必须要掌握的一门技术。核心：redis是将所有的数据全部放在内存中，所以说使用单线程去操作效率就是最高的，多线程（CPU上下文切换消耗的时间相对就比较多），对于内存系统来说，如果没有上下文切换，效率就是最高的，多次读写都在一个CPU上，怎能不快呢。

2024-06-11 10:14:55 1069

原创番外篇-用户购物偏好标签BP-推荐算法ALS

推荐系统是信息过载所采用的措施，面对海量的数据信息，从中快速的推荐出符合用户特点的物品。推荐系统是自动化的通过分析用户的历史行为数据，完成用户的个性化建模，从而主动给用户推荐能够满足他们兴趣和需求的信息的软件系统。推荐引擎需要依赖用户的行为日志，因此一般都作为一个后台应用程序存在于网站中。通过截取网站提供了大量用户行为日志，给用户提供不同的个性化页面或者信息，提高整个网站的点击率和转化率。推荐系统一般都由三个部分组成，前端的交互界面、日志系统以及推荐算法系统。

2024-06-03 10:34:43 1122

原创用户画像知识点补充——多数据源

不同类型数据采集存储在不同的存储引擎系统（比如HDFS、HBase、Hive、Elasticsearch、MYSQL数据库等），因此需要用户画像标签系统可以支持从不同的数据源读取业务数据，进行构建标签，恰好Spark SQL支持多数据源的加载与保存。针对用户画像标签系统来说，不同标签（业务标签，4级标签）来源于不同的业务数据（订单相关数据、搜搜数据、广告点击数据等）、用户行为数据以及第三方数据（社交数据、信用数据等）构建而来。统一规范的标签可视化管理中台，业务人员可自助生产和维护标签，适应营销策略变化。

2024-06-01 21:59:52 1616

原创简单说说我对集成学习算法的一点理解

集成学习是一种通过构建并结合多个学习器来提高模型性能的技术框架。它通过生成多个基学习器并使用一种结合策略将它们的预测结果结合起来，以实现更好的预测效果。集成学习在机器学习和数据科学领域中被广泛应用，是提升模型性能的重要工具之一。弱分类器：逻辑回归（Lr）分类算法、决策树（DT）分类算法强分类器相当于弱分类器算法而言进行称呼，往往是多个弱分类器算法组成的，变成强分类器即：三个臭皮匠，顶个诸葛亮。

2024-06-01 20:03:11 866

原创 USG模型-CrossValidator模型调优篇

（叠甲：大部分资料来源于黑马程序员，这里只是做一些自己的认识、思路和理解，主要是为了分享经验，如果大家有不理解的部分可以私信我，也可以移步【黑马程序员_大数据实战之用户画像企业级项目】https://www.bilibili.com/video/BV1Mp4y1x7y7?将数据集划分为两个部分，动态的划分为K个部分的数据集，其中1份数据集为验证数据集，其他K-1份数据为训练数据集，调整参数训练模型。将数据集划分为两个部分，静态的划分，一个用于训练模型，一个用于验证模型。将数据分成4份，其中一份作为验证集。

2024-05-30 22:16:31 945

原创 Pipeline管道自己的一点理解

基于DataFrame API机器学习库Spark ML中提供Pipeline管道构建模型，方便实际项目中开发与部署。通俗地解释，就是一条流水线，它将多个处理步骤或组件串联起来，形成一个有序的工作流程。

2024-05-29 10:37:07 1233

原创大数据基础知识-Hadoop、HBase、Hive一篇搞定

相应的，数据库由于规模较小，因此可以支持的数据规模较小，一般单张表中能存储百万条数据(最新版的MySQL经过优化，单表中可以存储千万条或者上亿条数据，即使是一亿条数据，也就10GB大小，且此时效率会非常低)。HBase数据存储依靠HDFS，HDFS存储数据具有一次写入，多次读取的特点，其不支持对数据进行修改，但是HBase存储数据为KV型，通过对相同的K再次写入，根据TimeStamp不可逆的特点，每次写入的数据的时间戳都比上一个数据的时间戳大，从而完成版本号的维护和数据的更新。

2024-05-28 10:55:52 3657

原创番外篇-USG用户购物性别标签（详细思路可以去看RFM篇）

USG用户购物性别标签模型，通过用户购买的产品，确定用户的性别，常常使用算法为：逻辑回归、线性支持向量机、朴素贝叶斯、决策树和树集成学习算法。【购物性别定义】对于用户精确营销来说十分重要：系统会依据商品的名称、商品的颜色和商品的类别等，判断购买者的性别。

2024-05-27 19:26:00 853

原创 USG用户标签性别模型-番外篇前提-知识点补充-决策树

上图完整的表达了女孩决定是否见一个约会对象的策略，其中绿色节点标识判断条件，橙色节点白送hi决策结果，箭头标识在一个判断条件在不同情况下的决策路径，图中红色箭头表示了上面例子中女孩的决策过程。决策树学习采用的是自顶向下的递归方式，其基本思想是以信息熵为度量构建一个熵值下降最快的树，到叶子节点处熵值为0.其具有可读性、费雷速度快的有点，是一种有监督学习。特征选择表示从众多的特征中选择一个特征作为当前节点分裂的标准，如何选择特征有不同的量评估方法，从而衍生出不同的决策树，如。其拆分后的子节点也叫做子节点。

2024-05-27 11:32:52 888

原创决策树算法的一点基础知识补充

信息增量表示的是：得知特征X的信息而使得分类Y的信息的不确定性减少的程度。③递归构建：根据选择的划分特征，ID3算法将数据集划分成多个子集，并对每个子集递归地应用ID3算法，直到满足停止条件（如所有样本都属于同一类别、没有更多的特征可用于划分、达到预定的树深度等）。但就在你准备出门前，你看到了最新的天气预报，这次它明确告诉你，由于突然出现的强冷空气，今天下雨的概率已经上升到了90%。而越集中，则信息熵也越大。一条信息的信息量大小和他的不确定性有直接的关系，要搞清楚意见不确定的事，需要了解大量的信息。

2024-05-27 10:16:20 1314

原创番外篇-PSM价格敏感度模型（详细实现思路可以去看RFM篇）

简单来说可以使用占比和的值判断用户属于哪一个类别，但是聚类效果完全取决于区间界限设置，所以还是使用聚类算法>= 1 极度敏感0.4~1 比较敏感0.1~0.3 一般敏感0 不太敏感< 0 极度不敏感。

2024-05-18 20:42:21 1345 1

原创简单说一些我对ID-Mapping的理解

通俗地说，ID-Mapping就是把几份不同来源的数据，通过各种技术手段识别为同一个对象或主题，例如同一台设备（直接），同一个用户（间接），同一家企业（间接）等等。这个过程可以形象地理解为用户画像的“拼图”过程。

2024-05-16 21:01:27 665

原创番外篇-RFE用户活跃度模型（详细实现思路可以去看RFM篇）

在用户生命周期中，对每个用户进行群体划分，有针对性的做分群分层运营，可以更高效的提高营收转换。（用户生命周期是指：用户从注册账号建立起业务关系->完全终止关系的全过程，它动态的描述了用户在不同阶段的大致特征）。用户活跃度、用户价值度的分析在数据分析师的日常工作中会经常碰到，如何根据公司的业务情况对本公司的用户做活跃度和价值度的划分是是一种常规化的分析工作。，仅仅是讲计算指标发生变化，对于RFE的数据来源，可以从企业自己监控的用户行为日志获取，也可以从第三方网站分析工具获得。RFE：访问日志，流量数据。

2024-05-15 22:23:33 1666

qq_41680016的博客

原创 MQTT的初步理解

原创对于用户画像的一些基本理解

原创 Redis的一点入门了解

原创番外篇-用户购物偏好标签BP-推荐算法ALS

原创用户画像知识点补充——多数据源

原创简单说说我对集成学习算法的一点理解

原创 USG模型-CrossValidator模型调优篇

原创 Pipeline管道自己的一点理解

原创大数据基础知识-Hadoop、HBase、Hive一篇搞定

原创番外篇-USG用户购物性别标签（详细思路可以去看RFM篇）

原创 USG用户标签性别模型-番外篇前提-知识点补充-决策树

原创决策树算法的一点基础知识补充

原创番外篇-PSM价格敏感度模型（详细实现思路可以去看RFM篇）

原创简单说一些我对ID-Mapping的理解

原创番外篇-RFE用户活跃度模型（详细实现思路可以去看RFM篇）

原创 RFM模型-算法调优篇

原创 RFM模型与Kmeans聚类算法的一些认识-KMeans篇

原创 RFM模型与Kmeans聚类算法的一些认识-RFM篇

原创对ALS算法自己的理解

原创用户画像开发-标签模型开发-标签模板（自用笔记-01）

原创学生成绩管理系统

原创学生管理系统

原创图书管理系统

空空如也

Java 集合数组在JAVA创建一个集合类型的数组

空空如也

Java 集合数组 在JAVA创建一个集合类型的数组

Java 集合数组在JAVA创建一个集合类型的数组