自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 大模型评测数据集-MMCU

数据集旨在衡量中文大模型在处理众多任务上的准确度,主要覆盖覆盖医疗、法律、心理学和教育四大领域,题目形式涵盖单项选择和多项的选择题,共包含11900个问题。其中教育中涉及语、数、化学、物理、政治、生物、历史、地理等多种学科,为的是考核大模型的基础认知;2023年5月15日,甲骨易AI研究院推出首个中文的大模型评测数据集——“超越”(Massive Multitask Chinese Understanding,简称MMCU),填补了中文大语言模型能力测试缺失的一大空白。

2024-04-25 22:59:36 143

原创 机器学习中ground truth的含义

Ground Truth

2023-02-23 15:42:40 281

原创 torch cheatsheet

torch.matmul():两个tensor相乘torch.rand()、torch.randn():torch.sort():

2021-10-07 10:58:33 188

原创 mongodb_cheetsheat

原理空shell查询:db.my_database.getCollection('my_collection_name').find({}) 新增: db.my_database.getCollection('my_collection_name').insert({"update_time":new ISODate('2021-09-16 01:00:00.884'),"col1":'123477775'}) 修改: db.my_database.getCollection('my

2021-09-18 14:09:07 86

原创 python开源库(nlp方向)

1、Fancy-NLP:是腾讯商品广告策略组团队构建的,用于建设商品画像文本知识挖掘工具,支持如:实体提取、文本分类和文本相似度匹配等多种常见nlp任务。能够支持用户快速实现相关功能,比如说快速挖掘商品特征,应用到支持广告商品推荐模块种。pip install fancy-nlp...

2021-08-02 10:39:40 259

原创 elasticsearch_cheetsheat

1、spark写入es:org.elasticsearch.hadoop.rest.EsHadoopRemoteException: cluster_block_exception: blocked by: [FORBIDDEN/8/index write (api)]原因是index的生命周期设置了warm/cold阶段不能写入。

2021-07-27 19:31:50 482 1

原创 Spark-ml LinearRegression

目录参数说明:参数elasticNetParam:原理补充: 什么是L1, L2, elasticNet正则化参数说明:参数elasticNetParam: 取值范围[0,1], 取值1用的是L1正则化,取值0用的是L2正则化,否则取值是elasticNet正则化,源码如下:// LinearRegression的train方法中val effectiveL1RegParam = $(elasticNetParam) * effectiveRegParamv...

2020-10-24 15:59:19 350

原创 python-可视化(Matplotlib、Seaborn)及常用图形

系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录 前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习..

2020-09-09 17:29:16 778

转载 python学习-3-pandas

常用的方法:info()和describe()方法https://blog.csdn.net/qq_40305043/article/details/104862499

2020-09-05 15:23:50 87

原创 python

1、pandas读取csv时,warning Columns (24) have mixed types. Specify dtype option on import or set low_memory=Falsepd.read_csv("../data/test_data_0827.csv")结果warning Columns (24) have mixed types. Specify dtype option on import or set low_memory=False.原因:

2020-09-05 11:36:46 722

原创 java-1-集合补充-HashMap(jdk1.8)

目录将散列码约束在有限的数组空间HashMap如何解决hash冲突 HashMap,底层就是一个数组存储k-v的数据(数组每一位存储的是链表或者红黑树),k-v就是一个entry,怎么决定哪一个entry放在数组的哪个下标呢?根据key的hashcode算出来的,hashcode范围是很广的,而这里对应的数组长度有限,如何将散列码约束在有限的数组空间呢?将散列码约束在有限的数组空间 根据key.hashcode()如何得出在数组的位置, 先看jdk1.7中如何得到数组的下标...

2020-08-20 00:33:26 143

转载 spark核心-作业模型

转载自:http://blog.csdn.net/bluishglc/article/details/80653801Job Spark的整个作业体系中,处于顶层的是Job,Job和Action是一一对应的,每一个Action都会触发一个Job的执行,这个Job包含的处理逻辑是Action以及Action之前的所有Transformation,所有这些逻辑会被转换成一张关于RDD的DAG(有向无环图),这个DAG也就是实际意义上的Job的执行计划。Stage ...

2020-08-18 17:43:39 195

原创 spark checkpoint抖动

原因是checkpoint写入hdfs的时候有抖动https://www.jianshu.com/p/86c81db326e1

2019-08-26 19:23:32 124

原创 python学习-2-数据分析函数库

Numpy:numerical python 是Python语言的一个扩充程序库。 支持高级大量的维度数组与矩阵、矢量运算。 也针对数组运算提供大量的数学函数库。运算效率高,是大量机器学习框架的基础库。 底层很多是C实现的,所以比直接用python性能好 Pandas Python的一个数据分析包。比Numpy更好些,但是Numpy更基础 Pandas纳入了大量库和一些标...

2019-03-01 00:22:21 121

原创 python学习-1-工具Jupyter

Jupyter有两种模式:1、命令模式下 按Esc切换到命令模式,单元格的边框是蓝色的。这个模式下的常用快捷键:Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R : ...

2019-03-01 00:06:16 390

原创 scala-三个引号、正则表达式匹配

1、三个引号:a regular(定期的、合格的、有规律的) expression用处:字符串中含有特殊字符,java中需要转义符号,scala可以在三个引号中直接输特殊字符,不需要转义符(1)会很忠实输出引号内的内容(2)对齐输出:在每一行的开头加入前缀 |, 后面加入stripMargin,会去掉前缀 | 前面的空格,从控制台开头对齐输出2、正则表达式模式匹配sca...

2018-12-04 18:00:46 1486

原创 scala-函数字面量、闭包、3种函数参数形式

函数字面量:就是一个函数作为表达式使用,有匿名函数的意思 def m = (x: Int) => x + 1println(m(1)) 闭包:简单说就是函数字面量+自由变量;在运行时,捕获自由变量,从这个函数字面量创建出函数对象(函数值),叫做闭包 // 例子1// 这个函数是创建并返回闭包的函数:每调用一次,就会产生一个闭包// 这里的more是局部变量,作用域是mak...

2018-12-04 15:50:04 390 1

原创 Spark RDD-2-持久化&容错机制

rdd.cache 默认调用persisi,之缓存内存 def cache(): this.type = persist() rdd.persist() def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) rdd.unpersist(true) 手动释放缓存RDD占用的内存、磁盘存储资源 rdd.ch...

2018-12-02 12:58:26 428

原创 Spark-1-RDD常用算子

目录1、RDD简介2、RDD创建3、常用RDD算子(1)Action RDD(2)单个RDD的 Transformation (惰性)(3)多个RDD的Transformation1、RDD简介Spark对数据的一种核心抽象,Resilient Distributed Dataset,弹性分布式数据集,不可变,是val类型RDD数据存储在内存中,采购服务器...

2018-11-30 19:18:28 494

原创 Spark SQL—1—简介、应用

Spark SQL比较HiveSQL Hive:将Hive SQL转换成MapReduce然后提交到集群上执行,简化了编写MapReduce的程序 由于MapReduce这种计算模型执行效率比较慢。 Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 Spark SQL应用场景 ETL: Extract抽取 数据...

2018-11-27 18:03:02 283 2

原创 IntelliJ IDEA快捷键整理

1、查找Ctrl+F,查找文本 Ctrl+N,查找类 Ctrl+Shift+N,查找文件 Ctrl+Shift+F,在路径中查找,全局查 Ctrl+Shift+Alt+N,查找类中的方法或属性(不包括方法中的变量) Ctrl+G,定位行(指定到哪行哪列)2、增删改Ctrl+R,替换文本 Ctrl+Shift+R,在路径中替换,全局替换 Ctrl+X和 Ctrl+Y,删除行...

2018-08-12 14:08:55 157

原创 多线程(一):创建线程的几种方法

概括来说就是两种:1、继承Thread类,重写run方法,然后start。不推荐这种,因为java的单继承特性。2、Thread类的构造函数中可以接受Runnable任务,所以只要是Runnable实例就可以作为参数给Thread一般有两种创建Runnable实例的方法(1)实现Runnable接口,实现里面的run方法,扔个Thread类,然后start(2)也可以创建FutureTask类的实...

2018-07-08 11:22:35 154

原创 多线程(二):详细描述wait、notify/notifyAll、join及底层实现

join:1、join的作用:这句代码执行后会阻塞代码所在的线程。意思是谁执行这句代码,谁被阻塞。2、举一个例子讲述join阻塞和结束阻塞过程:

2018-06-22 18:46:51 3058 1

原创 Spring-注解

一、引入注解的原因:(1)传统的Spring做法是使用.xml文件来对bean进行注入或者是配置aop、事务,这么做有两个缺点:如果所有的内容都配在.xml文件中,那么.xml文件会十分庞大;如果按需求分开.xml文件,那么.xml文件又非常多。总之将导致配置文件的可读性可维护性变很低。在开发中在.java文件和.xml文件之间不断切换,是一件麻烦的事,同时这种思维上的不连贯也会降低开发的效率。为...

2018-04-12 16:04:58 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除