- 博客(7)
- 收藏
- 关注
原创 NLP-词向量和文本向量
one-hot编码是一种传统的表示方法,其中每个单词都被表示为一个高维向量,向量的维度等于词汇表的大小。在该向量中,除了对应单词位置的元素为1外,其余元素均为0。这种表示方法简单直观,但无法表达单词之间的相似性和关联性。树的带权路径长度,就是树中所有的叶节点的权值乘上其到根节点的路径长度。在含有n 个带权叶结点的二叉树中,其中带权路径长度(WPL)最小的二叉树称为哈夫曼树, 也称最优二叉树。如图,c树的WPL=35最小,经验证其为哈夫曼树。1.1根据词与词之间关系的某种假设,制定训练目标。
2024-09-30 15:25:33
1361
原创 NLP-新词发现和TF-IDF
词是最小的独立意义单位,它们是构成语言的基本元素。词可以单独出现,也可以与其他词共同出现以构成更复杂的意义。通俗的理解为字与字之间的固定搭配,两个字放在一起共同表示一个特定的含义,这样就可以称为一个词在数学角度看词的内部应该是稳固的内部凝固度:简单理解为AB这个词A与B这两个字几乎不与其他字共同出现,只跟彼此共同出现可以认为这个词比较稳定。例如饕餮这两个字基本上是同时出现的。
2024-09-25 17:44:06
1561
原创 机器学习——支持向量机(1)
童话故事中出现了两种分类情况: 可被木棍完全分开的两种球——线性可分 无法被木棍分开的两种球——线性不可分 其实还有一种分类情况: 除个别球外,其他能被木棍分开的两种球——近似线性可分 支持向量机(Support Vector Machine,SVM )可以完美解决这3种分类情况。引入中国智慧,“人无完人,金无足赤” 允许这些异常点的存在,只要不超出我们的分类边界 这是得到的分类间隔,就是“软间隔” 之前完全分类正确的分类间隔与之对应,称为“硬间隔”SVM要寻找的最优划分就是具有“最大间隔”的决策线。
2024-09-24 09:12:25
681
1
原创 NLP-分词
2、对于一个待分词的字符串、从前向后寻找最长的,在此表中出现的词,在词边界做切分;问题转化为:对于句子中的每一个字,进行二分类判断,正类表示这句话中,它是词边界,负类表示它不是词边界。“北京大学生”:1,3、如果窗口内的词不是一个词前缀,则记录已经发现的词,并将窗口移动到词边界。4、如果不在词表中,窗口右边界回退一个字符,之后检查窗口词是否在词表中。3、如果在词表中,在词边界处进行切分,之后移动到词边界处,重复步骤2。1.单字词:词表中可以有单字,从分词的角度,我们也会把它称为一个词。
2024-09-23 14:16:36
1625
原创 利用Logistics回归实现鸢尾花分类
Step1、导入需要的库 sklearn 自带的鸢尾花数据集:load_iris 用于训练集和测试集的划分:train_test_split 用于Logistics回归分类的模型:LogisticRegression 用于分类模型的多个评价指标:accuracy_score、…Step2 、导入数据集 Iris 数据集已提前处理了空值等问题,无需进行预处理。Step7 、模型评价(分类指标计算)Step9 、模型的保存(可选)Step8 、模型优化(调参)Step5 、模型调用、训练。
2023-05-16 18:06:02
470
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人