人工智能_浅唱书令的博客-CSDN博客

人工智能

文章平均质量分 83

聊聊人工智能领域的机器学习、数据挖掘、自然语言处理、计算机视觉等相关技术和方法，分享一些实践经验。

文章数：45 文章阅读量：62723 文章收藏量：32

作者: 浅唱书令

玩过大数据，做过搜广推，如今在密码学领域搬砖

展开

从头训练一个数学编程大模型

前段时间基于OLMO 框架利用8张卡从头训练一个1B 大模型，以本文做一个简单的工作总结。SFT 微调采用LLaMA-Factory，评测使用OpenCompass。大模型MathCode 面向的任务：能写代码，能做简单的数学题。

原创 2024-07-16 12:23:01 · 24 阅读 · 0 评论
【大模型】预训练语料质量筛选

在大型语言模型（LLM）的开发过程中，预训练数据的规模和质量对塑造LLM的能力起着至关重要的作用。语言模型的数据集迅速扩大，其中最重要的是Common Crawl （CC) 数据集，包含近1T 个词。这样规模的数据集足以训练最大的模型。然而，未经筛选或轻度筛选的CC 数据集质量往往比经过精心构建的数据集要低。

原创 2024-07-01 17:47:41 · 73 阅读 · 0 评论
大语言模型（一）OLMo

OLMo 是由AI2 发布的大语言模型以及构建框架，与大多数之前的尝试只发布模型权重和推理代码不同，OLMo 开源了整个框架，包括训练数据、训练代码以及模型评估代码。OLMo框架包括构建和研究语言模型所需的工具和资源。对于训练和建模，它包括完整的模型权重、训练代码、训练日志、消融实验、以Weights & Biases日志形式的训练指标，以及推理代码。这次发布包括我们的语言模型在7B规模上的四个变体，对应不同的架构、优化器和训练硬件，以及一个1B规模的模型，所有模型都至少训练了2T token。

原创 2024-05-30 19:28:23 · 279 阅读 · 0 评论
多标签分类

1. 算法多标签分类的适用场景较为常见，比如，一份歌单可能既属于标签旅行也属于标签驾车。有别于多分类分类，多标签分类中每个标签不是互斥的。多标签分类算法大概有两类流派：采用One-vs-Rest(或其他方法)组合多个二分类基分类器；改造经典的单分类器，比如，AdaBoost-MH与ML-KNN。One-vs-Rest基本思想：为每一个标签\(y_i\)构造一个二分类器，正样本为含有...

原创 2018-10-17 17:29:00 · 49 阅读 · 0 评论
【从传统方法到深度学习】情感分析

为了记录在竞赛中入门深度学习的过程，我开了一个新系列【从传统方法到深度学习】。1. 问题Kaggle竞赛Bag of Words Meets Bags of Popcorn是电影评论(review)的情感分析，可以视作为短文本的二分类问题(正向、负向)。标注数据集长这样：id sentiment review"2381_9" 1 "\"The Classic War of the Wor...

原创 2017-05-24 16:54:00 · 36 阅读 · 0 评论
【从传统方法到深度学习】图像分类

1. 问题Kaggle上有一个图像分类比赛Digit Recognizer，数据集是大名鼎鼎的MNIST——图片是已分割 (image segmented)过的28*28的灰度图，手写数字部分对应的是0~255的灰度值，背景部分为0。from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.l...

原创 2017-06-17 15:52:00 · 45 阅读 · 0 评论
【中文分词】条件随机场CRF

之前介绍的MMEM存在着label bias问题，因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW：比较有意思的是，这篇文章的二作与三作同时也是MEMM的作者。1. 前言本节将遵从tutorial [2] 的论文结构，从概率模型(Probabilistic Models)与图表示(Graphical Representa...

原创 2016-12-23 11:04:00 · 65 阅读 · 0 评论
【中文分词】最大熵马尔可夫模型MEMM

Xue & Shen '2003 [2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词；看原论文感觉作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEMM。MEMM是由McCallum et al. '2000 [1]提出MEMM，针对于...

原创 2016-12-20 11:17:00 · 64 阅读 · 0 评论
【中文分词】二阶隐马尔可夫模型2-HMM

在前一篇中介绍了用HMM做中文分词，对于未登录词(out-of-vocabulary, OOV)有良好的识别效果，但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却未能很好地识别。主要是因为，HMM本质上是一个Bigram的语法模型，未能深层次地考虑上下文(context)。对于此，本文将介绍更为复杂的二阶HMM以及开源实现。1. 前言n-gram语法模型n-gr...

原创 2016-12-15 15:43:00 · 164 阅读 · 0 评论
【中文分词】隐马尔可夫模型HMM

Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem)，由此引入监督学习算法来解决分词问题。1. HMM首先，我们将简要地介绍HMM(主要参考了李航老师的《统计学习方法》)。HMM包含如下的五元组：状态值集合\(Q=\{q_1, q_2, \...

原创 2016-12-12 13:37:00 · 149 阅读 · 0 评论
【中文分词】简单高效的MMSeg

最近碰到一个分词匹配需求——给定一个关键词表，作为自定义分词词典，用户query文本分词后，是否有词落入这个自定义词典中？现有的大多数Java系的分词方案基本都支持添加自定义词典，但是却不支持HDFS路径的。因此，我需要寻找一种简单高效的分词方案，稍作包装即可支持HDFS。MMSeg分词算法正是完美地契合了这种需求。1. MMseg简介MMSeg是蔡志浩(Chih-Hao Tsai)提出的基...

原创 2016-09-14 15:04:00 · 146 阅读 · 0 评论
【中文分词】结构化感知器SP

结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的，用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。1. 结构化感知器模型CRF全局化地以最大熵准则建模概率\(P(Y|X)\)；其中，\(X\)为输入序列\(x_1^n\)，\(Y\)为标注序列\(y_1^n\)。不同于CRF建模概率函...

原创 2017-02-19 17:03:00 · 141 阅读 · 0 评论
开源中文分词工具探析（七）：LTP

LTP是哈工大开源的一套中文语言处理系统，涵盖了基本功能：分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：Jieba开源中文分词工具探析(三)：Ansj开源中文分词工具探析(四)：THULAC开源中文分词工具探析(五)：FNLP开源中文分...

原创 2018-06-11 16:52:00 · 668 阅读 · 0 评论
开源中文分词工具探析（六）：Stanford CoreNLP

CoreNLP是由斯坦福大学开源的一套Java NLP工具，提供诸如：词性标注(part-of-speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：J...

原创 2018-02-07 21:24:00 · 935 阅读 · 0 评论
开源中文分词工具探析（五）：FNLP

FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包，提供诸如分词、词性标注、文本分类、依存句法分析等功能。【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：Jieba开源中文分词工具探析(三)：Ansj开源中文分词工具探析(四)：THULAC开源中文分词工具探析(五)：FNLP...

原创 2017-03-16 14:29:00 · 207 阅读 · 0 评论
开源中文分词工具探析（四）：THULAC

THULAC是一款相当不错的中文分词工具，准确率高、分词速度蛮快的；并且在工程上做了很多优化，比如：用DAT存储训练特征(压缩训练模型)，加入了标点符号的特征(提高分词准确率)等。【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：Jieba开源中文分词工具探析(三)：Ansj开源中文分词工具探析(四)：THULAC...

原创 2017-02-22 15:57:00 · 669 阅读 · 0 评论
开源中文分词工具探析（三）：Ansj

Ansj是由孙健(ansjsun)开源的一个中文分词器，为ICTLAS的Java版本，也采用了Bigram + HMM分词模型(可参考我之前写的文章)：在Bigram分词的基础上，识别未登录词，以提高分词准确度。虽然基本分词原理与ICTLAS的一样，但是Ansj做了一些工程上的优化，比如：用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。【开源中文分词工具...

原创 2017-01-11 19:21:00 · 424 阅读 · 0 评论
中文分词工具探析（二）：Jieba

【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：Jieba开源中文分词工具探析(三)：Ansj开源中文分词工具探析(四)：THULAC开源中文分词工具探析(五)：FNLP开源中文分词工具探析(六)：Stanford CoreNLP开源中文分词工具探析(七)：LTP1. 前言Jieba是由fxsjy大神开...

原创 2016-12-29 18:08:00 · 145 阅读 · 0 评论
中文分词工具探析（一）：ICTCLAS (NLPIR)

【开源中文分词工具探析】系列：开源中文分词工具探析(一)：ICTCLAS (NLPIR)开源中文分词工具探析(二)：Jieba开源中文分词工具探析(三)：Ansj开源中文分词工具探析(四)：THULAC开源中文分词工具探析(五)：FNLP开源中文分词工具探析(六)：Stanford CoreNLP开源中文分词工具探析(七)：LTP1. 前言ICTCLAS是张华平老师推出...

原创 2016-12-27 11:05:00 · 939 阅读 · 0 评论
新词发现（一）：基于统计

1. 什么是新词现在大部分的分词工具已经做到了准确率高、粒度细，但是对于一些新词(new word)却不能做到很好地识别，比如：快的打车优惠券英雄联盟怎么不可以打排位“快的”、“英雄联盟”应该被作为一个词，却被切成了两个词，失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词，序列标注方法HMM与CRF可以根据上下文很好地识别未登录词，...

原创 2017-04-12 15:43:00 · 53 阅读 · 0 评论
TF-IDF提取行业关键词

1. TF-IDF简介TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量；用以衡量一个关键词\(w\)对于查询(Query，可看作文档)所能提供的信息。词频(Term Frequency, TF)表示关键词\(w\)在文档\(D_i\)中出现的频率：\[TF_{w,D_i}= \frac {count(w...

原创 2016-09-07 10:46:00 · 74 阅读 · 0 评论
【十大经典数据挖掘算法】C4.5

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 决策树模型与学习决策树(decision tree)算法基于特征属性进行分类，其主要的优点：模型具有可读性，计算量小，分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5，Breiman等提出的CART。其...

原创 2015-12-02 19:41:00 · 71 阅读 · 0 评论
【十大经典数据挖掘算法】k-means

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 引言k-means与kNN虽然都是以k打头，但却是两类算法——kNN为监督学习中的分类算法，而k-means则是非监督学习中的聚类算法；二者相同之处：均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派，指...

原创 2016-01-31 18:22:00 · 73 阅读 · 0 评论
【十大经典数据挖掘算法】SVM

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCARTSVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述，本文仅做整理。由简至繁SVM可分类为三类：线性可分(linear SVM in ...

原创 2016-10-15 21:59:00 · 66 阅读 · 0 评论
【十大经典数据挖掘算法】Apriori

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 关联分析关联分析是一类非常有用的数据挖掘方法，能从数据中挖掘出潜在的关联关系。比如，在著名的购物篮事务(market basket transactions)问题中，TIDIterms12...

原创 2016-07-29 17:36:00 · 61 阅读 · 0 评论
【十大经典数据挖掘算法】EM

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如，我们想了解抛硬币是正面(head)的概率分布\(\theta\)；那么可以通过最大似然估计方法求得。假如我们抛硬币\...

原创 2016-10-24 19:12:00 · 55 阅读 · 0 评论
【十大经典数据挖掘算法】PageRank

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇，是因为本人是Google脑残粉。因了PageRank而Google得以成立，因了Google而这个世界变得好了那么一点点。1. 引言PageRank是Serg...

原创 2016-12-02 10:40:00 · 54 阅读 · 0 评论
【十大经典数据挖掘算法】AdaBoost

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务，颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(weakly learnab...

原创 2016-10-18 18:12:00 · 62 阅读 · 0 评论
【十大经典数据挖掘算法】kNN

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes...

原创 2015-11-27 14:42:00 · 66 阅读 · 0 评论
【十大经典数据挖掘算法】Naïve Bayes

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型，实现简单，没有迭代，学习效率高，在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立，在输入向量的特征条件有关联的场景下并不适用。1. 朴素贝叶斯算法朴素...

原创 2015-11-28 15:18:00 · 51 阅读 · 0 评论
【十大经典数据挖掘算法】CART

【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles S...

原创 2015-12-10 14:28:00 · 48 阅读 · 0 评论
Bagging决策树：Random Forests

1. 前言随机森林 Random Forests (RF) 是由Breiman [1]提出的一类基于决策树CART的集成学习(ensemble learning)。论文 [5] 在121数据集上比较了179个分类器，效果最好的是RF，准确率要优于基于高斯核SVM和多项式LR。RF自适应非线性数据，不易过拟合，所以在Kaggle竞赛大放异彩，大多数的wining solution都用到了RF。...

原创 2017-01-18 11:19:00 · 272 阅读 · 0 评论
Boosting决策树：GBDT

GBDT (Gradient Boosting Decision Tree)属于集成学习中的Boosting流派，迭代地训练基学习器 (base learner)，当前基学习器依赖于上一轮基学习器的学习结果。不同于AdaBoost自适应地调整样本的权值分布，GBDT是通过不断地拟合残差 (residual)来“纠错”基学习器的。1. Gradient BoostingGradient Bo...

原创 2017-06-01 14:21:00 · 92 阅读 · 0 评论
时间序列异常检测算法S-H-ESD

其中，\(N\)为数据集的样本数，\(t_{\alpha/(2N), N-2}\)为显著度(significance level)等于\(\alpha/(2N)\)、自由度(degrees of freedom)等于\(N-2\)的t分布临界值。若\(R_i > \lambda_j\)，则原假设\(H_0\)不成立，该样本点为异常点；其中，\(X\)为原时间序列数据，\(S_X\)为STL分解后的周期分量，\(\tilde{X}\)为\(X\)的中位数。重复以上步骤\(k\)次至算法结束。

原创 2018-06-20 10:48:00 · 149 阅读 · 0 评论
异常检测算法：Isolation Forest

iForest (Isolation Forest)是由Liu et al. [1] 提出来的基于二叉树的ensemble异常检测算法，具有效果好、训练快(线性复杂度)等特点。1. 前言iForest为聚类算法，不需要标记数据训练。首先给出几个定义：划分(partition)指样本空间一分为二，相当于决策树中节点分裂；isolation指将某个样本点与其他样本点区分开。iFores...

原创 2017-08-09 22:06:00 · 65 阅读 · 0 评论
局部加权回归LOWESS

1. LOWESS用kNN做平均回归：\[\hat{f(x)} = Ave(y_i | x_i \in N_k(x))\]其中，\(N_k(x)\)为距离点x最近k个点组成的邻域集合(neighborhood set)。这种邻域平均回归存在很多缺点：没有考虑到不同距离的邻近点应有不同的权重；拟合的曲线不连续(discontinuous)，如下图。因此引入kernel加权平滑：...

原创 2017-08-17 17:26:00 · 209 阅读 · 0 评论
时间序列分解算法：STL

1. 详解STL (Seasonal-Trend decomposition procedure based on Loess) [1] 为时序分解中一种常见的算法，基于LOESS将某时刻的数据\(Y_v\)分解为趋势分量(trend component)、周期分量(seasonal component)和余项(remainder component):\[Y_v = T _v + S_v ...

原创 2017-08-18 16:15:00 · 798 阅读 · 0 评论
线性相关性度量

1. 相关性度量为了定量的描述线性相关性，统计学奠基人K. Pearson提出了Pearson相关系数、心理学家CE. Spearman提出了Spearman等级相关系数、统计学家M. Kendall提出了Kendall秩相关系数。这三种相关系数最具有代表性、应用也最广泛，它们既有联系又有不同，分别有不同的适用场景。Pearson相关系数Pearson相关系数 (Pearson cor...

原创 2017-06-09 11:58:00 · 142 阅读 · 0 评论
自行车需求预测

1. 问题今天来看一个回归问题——Kaggle竞赛Bike Sharing Demand，根据日期时间、天气、温度等特征，预测自行车的租借量。训练与测试数据集大概长这样：// traindatetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count2011-0...

原创 2017-05-26 11:58:00 · 54 阅读 · 0 评论
【推荐系统】协同过滤之基于用户的最近邻推荐

1.算法简介协同过滤（collaborative filtering）的核心思想：利用其他用户的行为来预测当前用户。协同过滤算法是推荐系统中最基本的，同时在业界广为使用。根据使用的方法不同，可以分为基于用户（user-based）、基于物品（item-based）的最近邻推荐。基于用户的最近邻推荐的主要思想：对于一个给定的评分集，找出与当前用户u口味相近的k个用户；然后，对

原创 2014-05-23 16:22:32 · 6837 阅读 · 1 评论

人工智能

作者: 浅唱书令

从头训练一个数学编程大模型

【大模型】预训练语料质量筛选

大语言模型（一）OLMo

多标签分类

【从传统方法到深度学习】情感分析

【从传统方法到深度学习】图像分类

【中文分词】条件随机场CRF

【中文分词】最大熵马尔可夫模型MEMM

【中文分词】二阶隐马尔可夫模型2-HMM

【中文分词】隐马尔可夫模型HMM

【中文分词】简单高效的MMSeg

【中文分词】结构化感知器SP

开源中文分词工具探析（七）：LTP

开源中文分词工具探析（六）：Stanford CoreNLP

开源中文分词工具探析（五）：FNLP

开源中文分词工具探析（四）：THULAC

开源中文分词工具探析（三）：Ansj

中文分词工具探析（二）：Jieba

中文分词工具探析（一）：ICTCLAS (NLPIR)

新词发现（一）：基于统计

TF-IDF提取行业关键词

【十大经典数据挖掘算法】C4.5

【十大经典数据挖掘算法】k-means

【十大经典数据挖掘算法】SVM

【十大经典数据挖掘算法】Apriori

【十大经典数据挖掘算法】EM

【十大经典数据挖掘算法】PageRank

【十大经典数据挖掘算法】AdaBoost

【十大经典数据挖掘算法】kNN

【十大经典数据挖掘算法】Naïve Bayes

【十大经典数据挖掘算法】CART

Bagging决策树：Random Forests

Boosting决策树：GBDT

时间序列异常检测算法S-H-ESD

异常检测算法：Isolation Forest

局部加权回归LOWESS

时间序列分解算法：STL

线性相关性度量

自行车需求预测

【推荐系统】协同过滤之基于用户的最近邻推荐