数据分析
文章平均质量分 79
数据分析&可视化知识分享
Itfuture03
只为造就未来梦想!
展开
-
【无监督学习】聚类(Clustering)K聚类和DBSCAN
K-Means是一种经典的聚类算法,它通过迭代的方式将数据集分成K个簇,使得簇内的点尽可能相似,簇间的点尽可能不同。K-Means算法的核心思想是最小化簇内距离的平方和,即每个点到簇中心的距离。根据与簇原型的最短距离将数据集中的n个数据点聚类为k个簇。将簇原型作为簇内的平均数据点;DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法。原创 2024-10-24 19:20:17 · 1018 阅读 · 0 评论 -
【MySQL】lower_case_table_names作用及使用
在使用dataease时,连接外部数据库,启动报错!后查看官方文档,特别要求改数据库配置文件:lower_case_table_names = 1,之后,果然启动使用正常。知识点: lower_case_table_names 是mysql设置大小写是否敏感的一个参数。在mysqld下 添加或修改 lower_case_table_names = 1 之后重启数据库。根据自己需求,更改配置文件即可!更改数据库参数文件my.cnf。原创 2024-03-07 17:10:32 · 6158 阅读 · 1 评论 -
【大模型评测】常见的大模型评测数据集
同时评测分为两部分,自动化评测的客观题部分和依赖于专家打分的主观题部分,这两部分结果构成了最终的分数,您可以通过构建示例中的脚本快速对一个已部署的大模型进行评测,或者向我们提交您需要评测的模型的主观题预测结果,进行我们人工评分的流水线操作。表述为带有二元选项的填空任务,目标是为需要常识推理的给定句子选择正确的选项。MMLU 是一个包含了 57 个子任务的英文评测数据集,涵盖了初等数学、美国历史、计算机科学、法律等,难度覆盖高中水平到专家水平,有效地衡量了人文、社科和理工等多个大类的综合知识能力。原创 2024-01-17 10:16:49 · 12464 阅读 · 0 评论 -
【Superset3.0】更全面superset相关--配置邮件报告发送: 附件乱码以及导出文件(截屏图片)中文乱码问题
由于之前是第一次是接触superset,从0到成功投入使用,踩了太多的坑,特整理分享给大家!下面是亲测且全网最有效的一些方法!原创 2023-11-10 10:52:20 · 1216 阅读 · 0 评论 -
什么是ARFF文件,以.arff结尾
注意“integer”,“real”,“numeric”,“date”,“string”这些关键字是区分大小写的,而“relation”“attribute ”和“date”则不区分。从“@data”标记开始,后面的就是数据信息了。例如如下的属性声明说明“outlook”属性有三种类别:“sunny”,“ overcast”和“rainy”。string----------------------------字符串型 date。numeric-------------------------数值型。原创 2023-11-01 18:01:32 · 1351 阅读 · 0 评论 -
【数据集资源】大数据资源-数据集下载方法-汇总
数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/343。深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票http://dataju.cn/Dataju/web/datasetInstanceDetail/341。原创 2023-10-20 16:40:47 · 3301 阅读 · 1 评论 -
常见指标总结(持续总结中......)
数据分析的基础是业务指标体系,搭建好的指标体系就得了解指标具体含义,本文持续分享总结常见指标名词释义,欢迎各位评论区补充扩展!原创 2023-05-13 20:00:24 · 640 阅读 · 0 评论 -
UGC、PGC、OGC、PUGC、MGC了解学习
PGC导向的长视颏(爱优腾)与UGC导向的短视频的平行发展格局已经确立,但两种生产方式的固有弊病也在逐渐极化:UGC尽管建构出生产的民主性与圈层化,但非专业性制作和扁平叙事造成了视觉品相的降低和叙事深度的缺失;这种模式要求保留内容作者的个性,同时对内容生产全流程的专业性进行把控,不仅维系了内容作者的核心性,同时在其生产链中植入了“专业化”的模块。(如部分新闻网站雇佣的内容编辑)。**在一个平台(网站)上,用户和提供商总是相对的,既是该平台的用户也是该平台的提供商的角色可能有,但属于极少的群体。原创 2023-05-13 19:24:36 · 3017 阅读 · 0 评论