- 博客(11)
- 收藏
- 关注
转载 什么是LLM(大语言模型)?
尽管这些大型语言模型与小型语言模型(例如 BERT 的3.3亿参数和 GPT-2 的15亿参数)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“所以它对语言有了更深刻的理解。总之,LLM 是一种令人兴奋的技术,它让计算机更好地理解和使用语言,正在改变着我们与技术互动的方式,同时也引发了对未来人工智能的无限探索。与此同时,研究人员发现,随着语言模型规模的扩大(增加模型大小或使用更多数据),模型展现出了一些惊人的能力,通常在各种任务中表现显著提升。
2023-11-14 11:43:30
1090
原创 数据清洗 -- 4 基于英文的自然语言处理
数据清洗 – 4 基于英文的自然语言处理目录数据清洗 -- 4 基于英文的自然语言处理前言一、自然语言处理--理论部分1.1 自然语言处理的应用示例1.2 自然语言处理需要考虑的问题1.2.1 Tokenization (分词/切词)1.2.2 Case Normalization (标准化)1.2.3 Removing Stop Words( 去停词 )1.2.4 Stemming & Lemmatisation(寻找词干)1.2.5 Sentence Segmentation(句子切分)二、
2021-03-08 15:40:22
1682
原创 数据清洗 -- 3.3 解析JSON文件 并转化成可用的DataFrame
数据清洗 – 3.3 解析JSON文件 并转化成可用的DataFrame目录数据清洗 -- 3.3 解析JSON文件 并转化成可用的DataFrame前言一、读取文件二、清洗数据2.1 提取数据2.2 删除无用列,并重置index2.3 时间戳转换2.4 提取经纬度总结前言从不同类型的数据源解析并读取数据是数据清洗的重要的环节。本篇文章讲述的是如何解析JSON文件,让我们开始吧。提示:以下是本篇文章正文内容,下面案例可供参考一、读取文件百度网盘链接: https://pan.baidu.c
2021-02-25 14:54:34
1522
原创 数据清洗--3.2 解析XML文件并转换成可用的DataFrame
数据清洗–3.2 解析XML文件并转换成可用的DataFrame目录数据清洗--3.2 解析XML文件并转换成可用的DataFrame前言一、读取XML文件二、提取数据总结前言从不同类型的数据源解析并读取数据是数据清洗的重要的环节。本篇文章讲述的是如何解析XML文件,让我们开始吧。一、读取XML文件示例中使用的文件百度网盘链接: https://pan.baidu.com/s/1cLfzsTu-yoESH1QJIfH7Fg提取码: cpn6Google Drive: https://
2021-02-20 10:05:07
1283
原创 数据清洗--3.1 Excel文件中解析--提取--清洗--保存数据到CSV文件
数据清洗–3. 解析csv & Excel目录数据清洗--3. 解析csv & Excel前言一、从CSV, Excel file读取数据二、读取、解析、清洗Excel文件2.1 读取文件2.2 清洗数据2.2.1 删除全空值的行列2.2.2 删除无用的行列2.2.3 以国家名称为index2.2.4 整理具体的信息2.2.5 重命名column names2.2.6 储存结果到csv 文件总结前言从不同类型的数据源解析并读取数据是数据清洗的重要的环节。本篇文章是解析多种类型文件
2021-02-18 21:08:38
3046
1
原创 数据清洗--2. regular expression 正则表达
数据清洗–2. regular expression 正则表达目录数据清洗--2. regular expression 正则表达前言一、正则表达是什么二、正则表达能干什么三、正则表达的语法字母候选集(Character sets)字母候选域(Character ranges)反字母候选集(Negative character sets)特殊字符在候选集内(Metacharacters inside character sets)重复元字符(Repetition Expressions)字符组(Grou
2021-02-16 12:56:40
420
2
原创 数据清洗--1. Introduction of Data Wrangling
数据清洗简介Data Wrangling–regular expression目录数据清洗简介Data Wrangling--regular expression前言一、Data Wrangling 的目的二、数据可能存在的问题1. Interpretability issue (数据可理解性)2. Data format issues (数据格式问题)3. Inconsistent and faulty data (数据不一致或错误数据)4. Missing values (缺失值)5. Outli
2021-02-15 09:40:39
1568
原创 不同的排序方法 (Sorting algorithms)
不同的排序方法 (Sorting algorithms)Python 入门基础-- Sorting方法目录不同的排序方法 (Sorting algorithms)1 Bubble sort2 Selection sort3 Insert sort4 Merge sort总结不同排序方法的时间复杂度1 Bubble sort遍历所有数组元素;比较每个相邻元素;把大的放在右边。# bubble sortdef bubbleSort(arr): n = len(arr)
2021-01-31 15:23:32
720
原创 关于设置 maxPartitionBytes
关于设置 maxPartitionBytesmaxPartitionBytes是什么为什么要设置 maxPartitionBytes怎么设置,以Python为例References:maxPartitionBytes是什么Spark在读取文件时默认设置每个partition 最多存储128M的数据。所以当读取的文件,比如csv文件小于128M,则这个文件的所有内容会放到一个partition里面。为什么要设置 maxPartitionBytes但当你的电脑可用的线程或核很多时,你处理的文件又比较少
2020-09-25 19:59:21
3970
原创 R QQplot的demo和理解
R QQplot的demo和理解目录R QQplot的demo和理解N(0,1)正态分布图像二级目录N(0,1)正态分布图像set.seed(0)x <- rnorm(1000, mean = 0, sd = 1)par(mfrow = c(1, 2), pty = "s")qqPlot(x, main="QQ Plot")hist(x, n = 50, freq=FALSE, main="Distribution of Residuals", border = "white", col
2020-08-18 15:19:51
14253
3
原创 Macbook GlobalProtect 连接问题
Macbook GlobalProtect 连接问题1. 遇到的问题2. 解决方案3. 正常的流程今天安装GlobalProtect遇到一些小问题,在这里记录下来分享给大家。1. 遇到的问题今天安装完GlobalProtect之后,输入portal address 后,卡在这个状态不动了。正常的流程,到这里应该是弹出一个验证的窗口,输入账号及密码进行验证,然后就能连接成功了。2. 解决方案研究了一上午发现是Mac安全&隐私的设置问题。 因为这个软件是第三方的,需要在偏好设置 -->
2020-07-22 15:40:42
34749
52
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人