人工智能
文章平均质量分 83
聊聊人工智能领域的机器学习、数据挖掘、自然语言处理、计算机视觉等相关技术和方法,分享一些实践经验。
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
浅唱书令
玩过大数据,做过搜广推,如今在密码学领域搬砖
展开
-
从头训练一个数学编程大模型
前段时间基于OLMO 框架利用8张卡从头训练一个1B 大模型,以本文做一个简单的工作总结。SFT 微调采用LLaMA-Factory,评测使用OpenCompass。大模型MathCode 面向的任务:能写代码,能做简单的数学题。原创 2024-07-16 12:23:01 · 24 阅读 · 0 评论 -
【大模型】预训练语料质量筛选
在大型语言模型(LLM)的开发过程中,预训练数据的规模和质量对塑造LLM的能力起着至关重要的作用。语言模型的数据集迅速扩大,其中最重要的是Common Crawl (CC) 数据集,包含近1T 个词。这样规模的数据集足以训练最大的模型。然而,未经筛选或轻度筛选的CC 数据集质量往往比经过精心构建的数据集要低。原创 2024-07-01 17:47:41 · 73 阅读 · 0 评论 -
大语言模型(一)OLMo
OLMo 是由AI2 发布的大语言模型以及构建框架,与大多数之前的尝试只发布模型权重和推理代码不同,OLMo 开源了整个框架,包括训练数据、训练代码以及模型评估代码。OLMo框架包括构建和研究语言模型所需的工具和资源。对于训练和建模,它包括完整的模型权重、训练代码、训练日志、消融实验、以Weights & Biases日志形式的训练指标,以及推理代码。这次发布包括我们的语言模型在7B规模上的四个变体,对应不同的架构、优化器和训练硬件,以及一个1B规模的模型,所有模型都至少训练了2T token。原创 2024-05-30 19:28:23 · 279 阅读 · 0 评论 -
多标签分类
1. 算法多标签分类的适用场景较为常见,比如,一份歌单可能既属于标签旅行也属于标签驾车。有别于多分类分类,多标签分类中每个标签不是互斥的。多标签分类算法大概有两类流派:采用One-vs-Rest(或其他方法)组合多个二分类基分类器;改造经典的单分类器,比如,AdaBoost-MH与ML-KNN。One-vs-Rest基本思想:为每一个标签\(y_i\)构造一个二分类器,正样本为含有...原创 2018-10-17 17:29:00 · 49 阅读 · 0 评论 -
【从传统方法到深度学习】情感分析
为了记录在竞赛中入门深度学习的过程,我开了一个新系列【从传统方法到深度学习】。1. 问题Kaggle竞赛Bag of Words Meets Bags of Popcorn是电影评论(review)的情感分析,可以视作为短文本的二分类问题(正向、负向)。标注数据集长这样:id sentiment review"2381_9" 1 "\"The Classic War of the Wor...原创 2017-05-24 16:54:00 · 36 阅读 · 0 评论 -
【从传统方法到深度学习】图像分类
1. 问题Kaggle上有一个图像分类比赛Digit Recognizer,数据集是大名鼎鼎的MNIST——图片是已分割 (image segmented)过的28*28的灰度图,手写数字部分对应的是0~255的灰度值,背景部分为0。from keras.datasets import mnist(x_train, y_train), (x_test, y_test) = mnist.l...原创 2017-06-17 15:52:00 · 45 阅读 · 0 评论 -
【中文分词】条件随机场CRF
之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二作与三作同时也是MEMM的作者。1. 前言本节将遵从tutorial [2] 的论文结构,从概率模型(Probabilistic Models)与图表示(Graphical Representa...原创 2016-12-23 11:04:00 · 65 阅读 · 0 评论 -
【中文分词】最大熵马尔可夫模型MEMM
Xue & Shen '2003 [2]用两种序列标注模型——MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field)——用于中文分词;看原论文感觉作者更像用的是MaxEnt (Maximum Entropy) 模型而非MEMM。MEMM是由McCallum et al. '2000 [1]提出MEMM,针对于...原创 2016-12-20 11:17:00 · 64 阅读 · 0 评论 -
【中文分词】二阶隐马尔可夫模型2-HMM
在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显——对于词典中的(in-vocabulary, IV)词却未能很好地识别。主要是因为,HMM本质上是一个Bigram的语法模型,未能深层次地考虑上下文(context)。对于此,本文将介绍更为复杂的二阶HMM以及开源实现。1. 前言n-gram语法模型n-gr...原创 2016-12-15 15:43:00 · 164 阅读 · 0 评论 -
【中文分词】隐马尔可夫模型HMM
Nianwen Xue在《Chinese Word Segmentation as Character Tagging》中将中文分词视作为序列标注问题(sequence tagging problem),由此引入监督学习算法来解决分词问题。1. HMM首先,我们将简要地介绍HMM(主要参考了李航老师的《统计学习方法》)。HMM包含如下的五元组:状态值集合\(Q=\{q_1, q_2, \...原创 2016-12-12 13:37:00 · 149 阅读 · 0 评论 -
【中文分词】简单高效的MMSeg
最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美地契合了这种需求。1. MMseg简介MMSeg是蔡志浩(Chih-Hao Tsai)提出的基...原创 2016-09-14 15:04:00 · 146 阅读 · 0 评论 -
【中文分词】结构化感知器SP
结构化感知器(Structured Perceptron, SP)是由Collins [1]在EMNLP'02上提出来的,用于解决序列标注的问题。中文分词工具THULAC、LTP所采用的分词模型便是基于此。1. 结构化感知器模型CRF全局化地以最大熵准则建模概率\(P(Y|X)\);其中,\(X\)为输入序列\(x_1^n\),\(Y\)为标注序列\(y_1^n\)。不同于CRF建模概率函...原创 2017-02-19 17:03:00 · 141 阅读 · 0 评论 -
开源中文分词工具探析(七):LTP
LTP是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分...原创 2018-06-11 16:52:00 · 668 阅读 · 0 评论 -
开源中文分词工具探析(六):Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger)、命名实体识别(named entity recognizer (NER))、情感分析(sentiment analysis)等功能。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):J...原创 2018-02-07 21:24:00 · 935 阅读 · 0 评论 -
开源中文分词工具探析(五):FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词、词性标注、文本分类、依存句法分析等功能。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP...原创 2017-03-16 14:29:00 · 207 阅读 · 0 评论 -
开源中文分词工具探析(四):THULAC
THULAC是一款相当不错的中文分词工具,准确率高、分词速度蛮快的;并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等。【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC...原创 2017-02-22 15:57:00 · 669 阅读 · 0 评论 -
开源中文分词工具探析(三):Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高分词准确度。虽然基本分词原理与ICTLAS的一样,但是Ansj做了一些工程上的优化,比如:用DAT高效地实现检索词典、邻接表实现分词DAG、支持自定义词典与自定义消歧义规则等。【开源中文分词工具...原创 2017-01-11 19:21:00 · 424 阅读 · 0 评论 -
中文分词工具探析(二):Jieba
【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分词工具探析(六):Stanford CoreNLP开源中文分词工具探析(七):LTP1. 前言Jieba是由fxsjy大神开...原创 2016-12-29 18:08:00 · 145 阅读 · 0 评论 -
中文分词工具探析(一):ICTCLAS (NLPIR)
【开源中文分词工具探析】系列:开源中文分词工具探析(一):ICTCLAS (NLPIR)开源中文分词工具探析(二):Jieba开源中文分词工具探析(三):Ansj开源中文分词工具探析(四):THULAC开源中文分词工具探析(五):FNLP开源中文分词工具探析(六):Stanford CoreNLP开源中文分词工具探析(七):LTP1. 前言ICTCLAS是张华平老师推出...原创 2016-12-27 11:05:00 · 939 阅读 · 0 评论 -
新词发现(一):基于统计
1. 什么是新词现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如:快的打车优惠券英雄联盟怎么不可以打排位“快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词,序列标注方法HMM与CRF可以根据上下文很好地识别未登录词,...原创 2017-04-12 15:43:00 · 53 阅读 · 0 评论 -
TF-IDF提取行业关键词
1. TF-IDF简介TF-IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量;用以衡量一个关键词\(w\)对于查询(Query,可看作文档)所能提供的信息。词频(Term Frequency, TF)表示关键词\(w\)在文档\(D_i\)中出现的频率:\[TF_{w,D_i}= \frac {count(w...原创 2016-09-07 10:46:00 · 74 阅读 · 0 评论 -
【十大经典数据挖掘算法】C4.5
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 决策树模型与学习决策树(decision tree)算法基于特征属性进行分类,其主要的优点:模型具有可读性,计算量小,分类速度快。决策树算法包括了由Quinlan提出的ID3与C4.5,Breiman等提出的CART。其...原创 2015-12-02 19:41:00 · 71 阅读 · 0 评论 -
【十大经典数据挖掘算法】k-means
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 引言k-means与kNN虽然都是以k打头,但却是两类算法——kNN为监督学习中的分类算法,而k-means则是非监督学习中的聚类算法;二者相同之处:均利用近邻信息来标注类别。聚类是数据挖掘中一种非常重要的学习流派,指...原创 2016-01-31 18:22:00 · 73 阅读 · 0 评论 -
【十大经典数据挖掘算法】SVM
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCARTSVM(Support Vector Machines)是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述,本文仅做整理。由简至繁SVM可分类为三类:线性可分(linear SVM in ...原创 2016-10-15 21:59:00 · 66 阅读 · 0 评论 -
【十大经典数据挖掘算法】Apriori
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 关联分析关联分析是一类非常有用的数据挖掘方法,能从数据中挖掘出潜在的关联关系。比如,在著名的购物篮事务(market basket transactions)问题中,TIDIterms12...原创 2016-07-29 17:36:00 · 61 阅读 · 0 评论 -
【十大经典数据挖掘算法】EM
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 极大似然极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法。比如,我们想了解抛硬币是正面(head)的概率分布\(\theta\);那么可以通过最大似然估计方法求得。假如我们抛硬币\...原创 2016-10-24 19:12:00 · 55 阅读 · 0 评论 -
【十大经典数据挖掘算法】PageRank
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART我特地把PageRank作为【十大经典数据挖掘算法】系列的收尾篇,是因为本人是Google脑残粉。因了PageRank而Google得以成立,因了Google而这个世界变得好了那么一点点。1. 引言PageRank是Serg...原创 2016-12-02 10:40:00 · 54 阅读 · 0 评论 -
【十大经典数据挖掘算法】AdaBoost
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 集成学习集成学习(ensemble learning)通过组合多个基分类器(base classifier)来完成学习任务,颇有点“三个臭皮匠顶个诸葛亮”的意味。基分类器一般采用的是弱可学习(weakly learnab...原创 2016-10-18 18:12:00 · 62 阅读 · 0 评论 -
【十大经典数据挖掘算法】kNN
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 引言顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naïve Bayes...原创 2015-11-27 14:42:00 · 66 阅读 · 0 评论 -
【十大经典数据挖掘算法】Naïve Bayes
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART朴素贝叶斯(Naïve Bayes)属于监督学习的生成模型,实现简单,没有迭代,学习效率高,在大样本量下会有较好的表现。但因为假设太强——假设特征条件独立,在输入向量的特征条件有关联的场景下并不适用。1. 朴素贝叶斯算法朴素...原创 2015-11-28 15:18:00 · 51 阅读 · 0 评论 -
【十大经典数据挖掘算法】CART
【十大经典数据挖掘算法】系列C4.5K-MeansSVMAprioriEMPageRankAdaBoostkNNNaïve BayesCART1. 前言分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles S...原创 2015-12-10 14:28:00 · 48 阅读 · 0 评论 -
Bagging决策树:Random Forests
1. 前言随机森林 Random Forests (RF) 是由Breiman [1]提出的一类基于决策树CART的集成学习(ensemble learning)。论文 [5] 在121数据集上比较了179个分类器,效果最好的是RF,准确率要优于基于高斯核SVM和多项式LR。RF自适应非线性数据,不易过拟合,所以在Kaggle竞赛大放异彩,大多数的wining solution都用到了RF。...原创 2017-01-18 11:19:00 · 272 阅读 · 0 评论 -
Boosting决策树:GBDT
GBDT (Gradient Boosting Decision Tree)属于集成学习中的Boosting流派,迭代地训练基学习器 (base learner),当前基学习器依赖于上一轮基学习器的学习结果。 不同于AdaBoost自适应地调整样本的权值分布,GBDT是通过不断地拟合残差 (residual)来“纠错”基学习器的。1. Gradient BoostingGradient Bo...原创 2017-06-01 14:21:00 · 92 阅读 · 0 评论 -
时间序列异常检测算法S-H-ESD
其中,\(N\)为数据集的样本数,\(t_{\alpha/(2N), N-2}\)为显著度(significance level)等于\(\alpha/(2N)\)、自由度(degrees of freedom)等于\(N-2\)的t分布临界值。若\(R_i > \lambda_j\),则原假设\(H_0\)不成立,该样本点为异常点;其中,\(X\)为原时间序列数据,\(S_X\)为STL分解后的周期分量,\(\tilde{X}\)为\(X\)的中位数。重复以上步骤\(k\)次至算法结束。原创 2018-06-20 10:48:00 · 149 阅读 · 0 评论 -
异常检测算法:Isolation Forest
iForest (Isolation Forest)是由Liu et al. [1] 提出来的基于二叉树的ensemble异常检测算法,具有效果好、训练快(线性复杂度)等特点。1. 前言iForest为聚类算法,不需要标记数据训练。首先给出几个定义:划分(partition)指样本空间一分为二,相当于决策树中节点分裂;isolation指将某个样本点与其他样本点区分开。iFores...原创 2017-08-09 22:06:00 · 65 阅读 · 0 评论 -
局部加权回归LOWESS
1. LOWESS用kNN做平均回归:\[\hat{f(x)} = Ave(y_i | x_i \in N_k(x))\]其中,\(N_k(x)\)为距离点x最近k个点组成的邻域集合(neighborhood set)。这种邻域平均回归存在很多缺点:没有考虑到不同距离的邻近点应有不同的权重;拟合的曲线不连续(discontinuous),如下图。因此引入kernel加权平滑:...原创 2017-08-17 17:26:00 · 209 阅读 · 0 评论 -
时间序列分解算法:STL
1. 详解STL (Seasonal-Trend decomposition procedure based on Loess) [1] 为时序分解中一种常见的算法,基于LOESS将某时刻的数据\(Y_v\)分解为趋势分量(trend component)、周期分量(seasonal component)和余项(remainder component):\[Y_v = T _v + S_v ...原创 2017-08-18 16:15:00 · 798 阅读 · 0 评论 -
线性相关性度量
1. 相关性度量为了定量的描述线性相关性,统计学奠基人K. Pearson提出了Pearson相关系数、心理学家CE. Spearman提出了Spearman等级相关系数、统计学家M. Kendall提出了Kendall秩相关系数。这三种相关系数最具有代表性、应用也最广泛,它们既有联系又有不同,分别有不同的适用场景。Pearson相关系数Pearson相关系数 (Pearson cor...原创 2017-06-09 11:58:00 · 142 阅读 · 0 评论 -
自行车需求预测
1. 问题今天来看一个回归问题——Kaggle竞赛Bike Sharing Demand,根据日期时间、天气、温度等特征,预测自行车的租借量。训练与测试数据集大概长这样:// traindatetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,casual,registered,count2011-0...原创 2017-05-26 11:58:00 · 54 阅读 · 0 评论 -
【推荐系统】协同过滤之基于用户的最近邻推荐
1.算法简介协同过滤(collaborative filtering)的核心思想:利用其他用户的行为来预测当前用户。协同过滤算法是推荐系统中最基本的,同时在业界广为使用。根据使用的方法不同,可以分为基于用户(user-based)、基于物品(item-based)的最近邻推荐。基于用户的最近邻推荐的主要思想:对于一个给定的评分集,找出与当前用户u口味相近的k个用户;然后,对原创 2014-05-23 16:22:32 · 6837 阅读 · 1 评论