王xm0323-CSDN博客

原创大模型评测数据集-MMCU

数据集旨在衡量中文大模型在处理众多任务上的准确度，主要覆盖覆盖医疗、法律、心理学和教育四大领域，题目形式涵盖单项选择和多项的选择题，共包含11900个问题。其中教育中涉及语、数、化学、物理、政治、生物、历史、地理等多种学科，为的是考核大模型的基础认知；2023年5月15日，甲骨易AI研究院推出首个中文的大模型评测数据集——“超越”（Massive Multitask Chinese Understanding，简称MMCU），填补了中文大语言模型能力测试缺失的一大空白。

2024-04-25 22:59:36 143

原创机器学习中ground truth的含义

Ground Truth

2023-02-23 15:42:40 281

原创 torch cheatsheet

torch.matmul()：两个tensor相乘torch.rand()、torch.randn()：torch.sort()：

2021-10-07 10:58:33 188

原创 mongodb_cheetsheat

原理空shell查询：db.my_database.getCollection('my_collection_name').find({}) 新增： db.my_database.getCollection('my_collection_name').insert({"update_time":new ISODate('2021-09-16 01:00:00.884'),"col1":'123477775'}) 修改： db.my_database.getCollection('my

2021-09-18 14:09:07 86

原创 python开源库（nlp方向）

1、Fancy-NLP：是腾讯商品广告策略组团队构建的，用于建设商品画像文本知识挖掘工具，支持如：实体提取、文本分类和文本相似度匹配等多种常见nlp任务。能够支持用户快速实现相关功能，比如说快速挖掘商品特征，应用到支持广告商品推荐模块种。pip install fancy-nlp...

2021-08-02 10:39:40 259

原创 elasticsearch_cheetsheat

1、spark写入es：org.elasticsearch.hadoop.rest.EsHadoopRemoteException: cluster_block_exception: blocked by: [FORBIDDEN/8/index write (api)]原因是index的生命周期设置了warm/cold阶段不能写入。

2021-07-27 19:31:50 482 1

原创 Spark-ml LinearRegression

目录参数说明:参数elasticNetParam:原理补充: 什么是L1, L2, elasticNet正则化参数说明:参数elasticNetParam: 取值范围[0,1], 取值1用的是L1正则化,取值0用的是L2正则化,否则取值是elasticNet正则化,源码如下:// LinearRegression的train方法中val effectiveL1RegParam = $(elasticNetParam) * effectiveRegParamv...

2020-10-24 15:59:19 350

原创 python-可视化(Matplotlib、Seaborn)及常用图形

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习..

2020-09-09 17:29:16 778

转载 python学习-3-pandas

常用的方法：info()和describe()方法https://blog.csdn.net/qq_40305043/article/details/104862499

2020-09-05 15:23:50 87

原创 python

1、pandas读取csv时，warning Columns (24) have mixed types. Specify dtype option on import or set low_memory=Falsepd.read_csv("../data/test_data_0827.csv")结果warning Columns (24) have mixed types. Specify dtype option on import or set low_memory=False.原因：

2020-09-05 11:36:46 722

原创 java-1-集合补充-HashMap(jdk1.8)

目录将散列码约束在有限的数组空间HashMap如何解决hash冲突 HashMap，底层就是一个数组存储k-v的数据（数组每一位存储的是链表或者红黑树），k-v就是一个entry，怎么决定哪一个entry放在数组的哪个下标呢？根据key的hashcode算出来的，hashcode范围是很广的，而这里对应的数组长度有限，如何将散列码约束在有限的数组空间呢？将散列码约束在有限的数组空间根据key.hashcode()如何得出在数组的位置，先看jdk1.7中如何得到数组的下标...

2020-08-20 00:33:26 143

转载 spark核心-作业模型

转载自：http://blog.csdn.net/bluishglc/article/details/80653801Job Spark的整个作业体系中，处于顶层的是Job，Job和Action是一一对应的，每一个Action都会触发一个Job的执行，这个Job包含的处理逻辑是Action以及Action之前的所有Transformation，所有这些逻辑会被转换成一张关于RDD的DAG(有向无环图)，这个DAG也就是实际意义上的Job的执行计划。Stage ...

2020-08-18 17:43:39 195

原创 spark checkpoint抖动

原因是checkpoint写入hdfs的时候有抖动https://www.jianshu.com/p/86c81db326e1

2019-08-26 19:23:32 124

原创 python学习-2-数据分析函数库

Numpy：numerical python 是Python语言的一个扩充程序库。支持高级大量的维度数组与矩阵、矢量运算。也针对数组运算提供大量的数学函数库。运算效率高，是大量机器学习框架的基础库。底层很多是C实现的，所以比直接用python性能好 Pandas Python的一个数据分析包。比Numpy更好些，但是Numpy更基础 Pandas纳入了大量库和一些标...

2019-03-01 00:22:21 121

原创 python学习-1-工具Jupyter

Jupyter有两种模式：1、命令模式下按Esc切换到命令模式，单元格的边框是蓝色的。这个模式下的常用快捷键：Enter : 转入编辑模式Shift-Enter : 运行本单元，选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元，在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : ...

2019-03-01 00:06:16 390

原创 scala-三个引号、正则表达式匹配

1、三个引号：a regular(定期的、合格的、有规律的) expression用处：字符串中含有特殊字符，java中需要转义符号，scala可以在三个引号中直接输特殊字符，不需要转义符（1）会很忠实输出引号内的内容（2）对齐输出：在每一行的开头加入前缀 |，后面加入stripMargin，会去掉前缀 | 前面的空格，从控制台开头对齐输出2、正则表达式模式匹配sca...

2018-12-04 18:00:46 1486

原创 scala-函数字面量、闭包、3种函数参数形式

函数字面量：就是一个函数作为表达式使用，有匿名函数的意思 def m = (x: Int) => x + 1println(m(1)) 闭包：简单说就是函数字面量+自由变量；在运行时，捕获自由变量，从这个函数字面量创建出函数对象（函数值），叫做闭包 // 例子1// 这个函数是创建并返回闭包的函数：每调用一次，就会产生一个闭包// 这里的more是局部变量，作用域是mak...

2018-12-04 15:50:04 390 1

原创 Spark RDD-2-持久化&容错机制

rdd.cache 默认调用persisi，之缓存内存 def cache(): this.type = persist() rdd.persist() def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) rdd.unpersist(true) 手动释放缓存RDD占用的内存、磁盘存储资源 rdd.ch...

2018-12-02 12:58:26 428

原创 Spark-1-RDD常用算子

目录1、RDD简介2、RDD创建3、常用RDD算子（1）Action RDD（2）单个RDD的 Transformation （惰性）（3）多个RDD的Transformation1、RDD简介Spark对数据的一种核心抽象，Resilient Distributed Dataset，弹性分布式数据集，不可变，是val类型RDD数据存储在内存中，采购服务器...

2018-11-30 19:18:28 494

原创 Spark SQL—1—简介、应用

Spark SQL比较HiveSQL Hive：将Hive SQL转换成MapReduce然后提交到集群上执行，简化了编写MapReduce的程序由于MapReduce这种计算模型执行效率比较慢。 Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快 Spark SQL应用场景 ETL： Extract抽取数据...

2018-11-27 18:03:02 283 2

原创 IntelliJ IDEA快捷键整理

1、查找Ctrl+F，查找文本 Ctrl+N，查找类 Ctrl+Shift+N，查找文件 Ctrl+Shift+F，在路径中查找,全局查 Ctrl+Shift+Alt+N，查找类中的方法或属性（不包括方法中的变量） Ctrl+G，定位行（指定到哪行哪列）2、增删改Ctrl+R，替换文本 Ctrl+Shift+R，在路径中替换，全局替换 Ctrl+X和 Ctrl+Y，删除行...

2018-08-12 14:08:55 157

原创多线程(一)：创建线程的几种方法

概括来说就是两种：1、继承Thread类，重写run方法，然后start。不推荐这种，因为java的单继承特性。2、Thread类的构造函数中可以接受Runnable任务，所以只要是Runnable实例就可以作为参数给Thread一般有两种创建Runnable实例的方法（1）实现Runnable接口，实现里面的run方法，扔个Thread类，然后start（2）也可以创建FutureTask类的实...

2018-07-08 11:22:35 154

原创多线程(二)：详细描述wait、notify/notifyAll、join及底层实现

join：1、join的作用：这句代码执行后会阻塞代码所在的线程。意思是谁执行这句代码，谁被阻塞。2、举一个例子讲述join阻塞和结束阻塞过程：

2018-06-22 18:46:51 3058 1

原创 Spring-注解

一、引入注解的原因：（1）传统的Spring做法是使用.xml文件来对bean进行注入或者是配置aop、事务，这么做有两个缺点：如果所有的内容都配在.xml文件中，那么.xml文件会十分庞大；如果按需求分开.xml文件，那么.xml文件又非常多。总之将导致配置文件的可读性可维护性变很低。在开发中在.java文件和.xml文件之间不断切换，是一件麻烦的事，同时这种思维上的不连贯也会降低开发的效率。为...

2018-04-12 16:04:58 134

小羊的博客