自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 怎么利用gpt2进行句子改写生成

那么训练时候的model输入,就会有三部分:[BOS] + title + [SEP] + keywords + [SEP] + text + [EOS],所以生成的文章会与title和keywords有关。此实验是基于以上项目的改动,改动的部分只是input部分,这里只需去除title,针对句子提取keywords,输入:[BOS] + keywords + [SEP] + text + [EOS],这样生成的时候不会偏离原句大意。从结果中可看到有那么一点意思,不过整体还不够准确,句子改动过大。

2024-07-17 10:09:31 201

原创 中文分词系列(一)

中文分词主要可以归纳为“规则分词”、“统计分词”以及“规则+统计”三个主要派别,今天主要了解“规则分词”中常见的正向、逆向和双向最大化匹配,这三个都是基于现在词典做的,所以得准备一个中文词典,一行一个词。2.从 ”右向左“ 取长度为L的字符串,查找词典进行匹配,若匹配成功,则将这个词切分出来。2.从 “左向右” 取长度为L的字符串,查找词典进行匹配,若匹配成功,则将这个词切分出来。若匹配失败,将这个字符串的最后一个字符去掉,将剩下的串作为新的匹配串    进行匹配。1.找到词典中最长的词,记下长度L。

2024-07-17 10:08:06 136

原创 文本校对中量词名词搭配库的挖掘

在文本校对中,现在的深度神经网络模型,如神经翻译模型seq2seq框架在文本纠错中也有一些应用,但这需要大规模语料去做训练,有时候效果还不一定好,或者效率不一定达到要求,另外这种end2end方法也不好解释。所以基于统计和规则的文本校对方法还是有一定应用价值的。文本校对中有一项是词的搭配校对,而词的搭配校对中有一项是量词名词的搭配校对,比如“一片猪”中的量词是“一片”,名词是“猪”,我们知道这样的搭配是错误的,应该为“一头猪”。量名搭配可以用统计和规则的方法去做,也能达到一些效果,但此篇不会説怎么用统计和规

2024-07-17 10:04:38 382

原创 文本校对中,利用最大熵(maxent)对量名搭配进行校对

一.在文本校对中,利用最大熵对量名搭配进行校对测试,本文参考了张仰森教授的论文《最大熵方法中特征选择算法的改进与纠错排歧》(3).将有量名搭配错误的句子输入最大熵纠错模型中,输出预测的最大概率对应的量词作为纠正词(再根据量名搭配库进行剔除)(3).特征的挖掘,可利用文本挖掘中常规方法,如信息增益、卡方统计以及词频等。(2).根据量名搭配库,找出句子中可能出现的量名搭配错误。(2).利用量词的左右各2个词及其词性作为特征模板。(1).对语料进行分词和词性标注。(1).挖掘量名搭配库。

2024-07-17 10:02:24 147

原创 使用word2vec对中文维基百科数据进行处理

并使用gensim中的wikicorpus解析提取xml中的内容。四.利用gensim中的word2vec训练分词后的文本。三.利用jieba对转换后的文本进行分词,去停词。二.利用opencc繁体转简体。一.下载中文维基百科数据。

2024-07-17 10:01:11 109

原创 使用java自动对文章进行图谱化分析

这里提取文章的关键信息,包括关键词、高频词、实体(地名,人名,机构名)以及依存句法分析提取主谓关系等三元组信息。hanlp可以去官网下载data(数据和模型),然后在hanlp.properties中进行相关配置。之前在github上看到https://github.com/liuhuanyong/TextGrapher利用pyltp对文章进行分析并图示。所以这两天打算利用java,hanlp进行文章分析并图示,项目在。

2024-07-17 09:58:44 209

原创 利用gephi作人物网络图

四.这里利用红楼梦中的人进行计算,使用’薛宝钗’, ‘贾琏’, ‘巧姐’, ‘贾雨村’, ‘凤姐’, ‘贾宝玉’, ‘林黛玉’, ‘贾母’, ‘邢夫人’, '史湘云’计算与它们的相似词取前10个。a.利用jieba对文本进行分词,并只提取词性为人名的词,去除分词长度为1和大于4的词。b.利用word2vec训练分词后的文本,并存储。d.人工过滤一些杂项(由于分词的不准确造成)一.先利用word2vec训练数据得到模型。c.利用训练后的模型计算相关度词。b.利用gephi画图,将调整。

2024-07-17 09:57:22 140

原创 常用的激活函数

4.leaky relu函数。2.sigmoid函数。6.softmax函数。

2024-07-17 09:52:51 117

原创 spark实现smote近邻采样

SMOTE的全称是Synthetic Minority Over-Sampling Technique,译为“人工少数类过采样法”。普通的过采样会使得训练集中有很多重复的样本。4.在阳性样本和被选出的这个近邻之间的连线上,随机找一点。这个点就是人工合成的新的阳性样本(绿色正号标出)。SMOTE没有直接对少数类进行重采样,而是设计了算法来人工合成一些新的少数类的样本。2.找出这个阳性样本的k近邻(假设k=5)。3.随机从这k个近邻中选出一个样本(用绿色圈出来了)。重复以上步骤,就可以生成很多阳性样本。

2024-07-17 09:50:33 761

原创 sklearn pca降维

PCA主成分分析是将原始数据以线性形式映射到维度互不相关的子空间。主要就是寻找方差最大的不相关维度。数据的最大方差给出了数据的最重要信息。参考:1.CRC.Machine.Learning.An.Algorithmic.Perspective.2nd.Edition.优:将高维数据映射到低维,降低数据的复杂性,识别最重要的多个特征。5.将数据转换到k个特征向量构建的新空间中,Y=P^tX。4.从大到小排序特征值,取得最前的k个特征向量P。3.求出协方差矩阵的特征值和对应的特征向量。四.python代码。

2024-07-17 09:46:30 233

原创 single-pass单遍聚类方法

如果有个需求需要针对流式文本进行聚类(即来一条聚一条),那么这些方法都不太适用了,当然也有很多其它针对流式数据进行动态聚类方法,动态聚类也有很多挑战,比如聚类个数是不固定的,聚类的相似阈值也不好设。这些都有待继续研究下去。本文实现一个简单single-pass单遍聚类方法,文本间的相似度是利用余弦距离,文本向量可以用tfidf(这里的idf可以在一个大的文档集里统计得到,然后在新的文本中的词直接利用),也可以用一些如word2vec,bert等中文预训练模型对文本进行向量表示。

2024-07-17 09:45:21 149

原创 python实现一个朴素贝叶斯分类方法

返回最大概率的那个类别。此外,此式针对离散型属性进行训练,针对连续的数值型属性可以考虑分段,也可以假设其满足某种分布,比如正态分布,利用概率密度函数求概率。右边式子分子是属性的条件概率和类别的先验概率,可以从统计训练数据中得到,分母对于所有实例都一样,可以不考虑,所有只需。上式中n是某个类别下的实例数,nc是此类别下的属性个数,m是此属性的取值个数,p是此属性取值出现的概率。其中uij是某列数值型属性的均值,Qij是某列数值型属性样本标准差,Xi是数值属性。3.python实现。

2024-07-17 09:44:27 182

原创 python实现一个层次聚类方法

图中A类和B类间最长距离是A2到B2,B类和C类最长距离是B1到C1,distance(B1-C1)<distance(A2-B2),所以B类和C类合并在一起。如上图中类A(A1,A2),B(B1,B2),C(C1,C2),A类和B类间的最短距离是A1到B1,所以A类与B类更近,所有A和B合并。层次聚类不需要指定聚类的数目,首先它是将数据中的每个实例看作一个类,然后将最相似的两个类合并,该过程迭代计算只到剩下一个类为止,类由两个子类构成,每个子类又由更小的两个子类构成。三.python实现(单连接)

2024-07-17 09:43:02 207

原创 python实现的一个中文文本摘要程序

文本摘要方法有很多,主要分为抽取式和生成式,应用比较多的是抽取式,也比较简单,就是从文本中抽取重要的句子或段落。本方法主要是利用句子中的关键词的距离,主要思想和参考来自阮一峰的网络日志。

2024-07-17 09:35:00 168

原创 py2neo查询节点和关系

【代码】py2neo查询节点和关系。

2024-07-17 09:31:06 110

原创 neo4j构建一个简单的婴儿奶粉图谱

品牌名、奶粉的段位、重量、店铺名、店铺url、商品url、商品价格、商品评论人数,其中前3个字段可以从商品的标题中提取。这里只简单的提前搜集好各种奶粉品牌名,如发现商品标题中有此品牌则认为该商品属于此品牌奶粉。奶粉的段位和重量(包括有几罐)可以简单的利用规则提取,其它的字段在抓取中可获得。5个关系:(店铺,拥有奶粉品牌,品牌),(店铺,拥有几段奶粉,段位),(店铺,奶粉链接,商品url),(品牌,拥有几段奶粉,段位),(商品url,几段奶粉,段位)其中,节点商品url拥有属性价格,评论数,重量。

2024-07-16 13:25:44 543

原创 kmeans与kmeans++的python实现

kmeans聚类的主要缺点是随机的k个初始中心点的选择不够严谨,因为是随机,所以会导致聚类结果准确度不稳定。2.计算每个点到与其最近的中心点的距离为dist,以正比于dist的概率,随机选择一个点作为中心点加入中心点集中,重复直到选定k个中心点。计算每个点到它自己的类的中心点的距离的平方和,外层是不同类间的和。根据每次初始点的选择聚类结果计算SSE,SSE值越小结果越好。kmeans++方法是针对kmeans的主要缺点进行改进,通过在初始中心点的选择上改进不足。3.更新中心点,计算每个类的平均中心点。

2024-07-16 13:24:00 211

原创 es搜索,统计

记得好几年前用es做过标签画像统计,如今再看es时已是很生疏了,再用时已更新到了7.12版本了。以前用TransportClient客户端,现在出了而且是官方推荐用RestHighLevelClient客户端。这几天用RestHighLevelClient时还是觉得比较方便的。现将一些基本常用功能记录一下。

2024-07-16 13:22:54 87

原创 最大边缘相关(MMR)用于推荐的多样性

而且深度学习的这种生成式方法有时候真的不是太准,即生成的摘要有时候是不通顺的或是不知道説啥,这个还需要后续继续研究。再结合最大边缘相关(MMR)解决相似句子问题,MMR原本是用于query与docs搜索匹配问题,后面被我改动用于解决抽取关键句的多样性方法,见。这几天正好看到了有篇资料是将MMR用于缓解推荐的多样性问题,説的是先用某种推荐模型如协同中的item或是矩阵分解等挖掘出top-n商品,然后将item分数以及item相似矩阵输入到MMR中再进行多样性的调整进行重排序及top推荐。

2024-07-16 13:18:22 139

原创 一种推荐系统架构设计

在这个特定的示例中,我们重点关注使用上面段落中暗示的模型。在推理时,CF 算法从模型存储中读取模型,并从特征存储中读取其他相关特征(例如用户个人资料数据),并预测与用户及其观看历史匹配的最佳电影。这些步骤的结果是捕获特征并存储在特征存储中的数据集,以及保存在 Blob 存储介质(例如 S3 等分布式文件系统)中的模型。如图架构所示,推荐模块由两个组件组成:(i) 内容过滤 (CF) 算法,根据每个用户的个人资料和历史观看数据识别相关视频,以及 (ii) 分配分数的排名算法到推荐的视频。

2024-07-16 13:17:11 354

原创 学习sklearn聚类使用

轮廓系数(1,-1):只使用聚类的数据,它计算的是每个数据样本与同簇数据样本和其它簇数据样本之间的相似度,因为从平均来看,与同簇比较起来,比其它簇更相似。1.kmeans与高斯需要指定簇的数量(n_clusters=2,n_components=2);参考:1.Machine.Learning.An.Algorithmic.Perspective.2nd.Edition.2.图中可以看出高斯的评估指标最好,其次是均值漂移,k均值与层次较差。2.同质性:值:0-1,每个簇是否只包含同一个类别的样本。

2024-07-16 13:15:48 197

原创 使用horovod构建分布式深度学习框架

最近一直在尝试着分布式深度学习的架构,主要的原因一方面是几台机子全是1060卡,利用深度网络在较大数据样本上训练的效率极其低下,所以尝试着将几台机子做成分布式,看看能否提高训练效率;第二方面是有人习惯使用tensorflow,有人习惯使用keras,也有人喜欢使用pytorch等,虽然这些框架各自都有分布式的实现,但总的来说不能统一到一个平台上,造成使用上有不好的体验。在查资料的时候正好看到了horovod这个框架,它是集成了多个深度框架的一个统一平台,搭建和使用起来都比较方便,所以打算尝试基于horovo

2024-07-16 13:10:57 829

原创 如何计算一篇中文文档的信息熵

一.一篇文档的信息量是否丰富,可以简单利用信息熵来衡量它,计算公式如下,其中p(x)表示word在整篇文档的出现概率(此word出现次数 / 总词数)。

2024-07-16 13:07:22 150

原创 利用pyltp进行实体识别

OrderedDict([(‘LOC’, {‘赵本山’, ‘辽宁省’, ‘本山’, ‘沈阳’}), (‘PER’, {‘赵本山’, ‘马丽娟’, ‘本山’, ‘马立娟’, ‘杨树林’, ‘刘老根’, ‘宋小宝’, ‘官宣’}), (‘ORG’, {‘国家旅游局’, ‘辽宁民间艺术团有限公司’, ‘本山传媒有限公司’, ‘辽宁民间艺术团’, ‘文化部’, ‘辽宁大学’, ‘本山传媒公司’, ‘中宣部’})])基于规则的方法,主要依靠构建大量的实体抽取规则,一般由具有一定领域知识的专家手工构建。

2024-07-16 11:23:46 351

原创 记录一下ssh,nfs安装步骤

开机自动挂载:在sudo gedit /etc/fstab中:master server ip:/home/username/share /home/username/share nfs defouts,-rnetdev 1 1。主机和ip映射(每台机上修改):/etc/hosts,如192.168.137.129 master、192.168.137.130 slave1等。3.卸载挂载:sudo umount /home/username/share。4.节点之间无密码ssh登录。

2024-07-16 11:15:27 344

原创 画像和推荐

假设5秒是一个窗口(Window),当计算下一个窗口时,在第二刷最前面插入用户  在第一刷感兴趣的新闻的相关新闻,插入的新闻数量跟用户在第一个窗口浏览过的加上跳过的一样多,同时第一个窗口浏览过的和跳过的新闻从环中剔除,由于删除的和插入的一  样多,总队列还是保持100个。对于时效性高的新闻来说,用户的偏好是随着时间变化的,所以需要根据较短时间(几个小时甚至实时)生成用户画像,然后根据画像召回新闻。用户倾向于关注本地新闻,所以根据用户IP(或用户拥有的地域标签)获取用户所在地,为用户召回特定地域的新闻。

2024-07-16 11:14:16 636

原创 关于推荐系统

召回的太少,用户能看到的内容就少,不利于平台的转化。再进一步,在排序得到推荐列表后,为了多样性和业务的一些考虑,还会进行重排过滤,重排过滤会给用户提供一些探索性的内容,挖掘用户潜在的其它偏好,避免一味的推荐同质化的内容,使用户失去兴趣,同时过滤低俗和违法的内容,保持一个良好的平台环境。

2024-07-16 11:10:53 898

原创 关于网络训练时的参考建议

2.train loss不断下降,test loss趋于不变,网络过拟合,需要增大数据;7.batchnorm:如果每个batch输入的数据都具有不同的分布,会给网络的训练带来困难,数据经过一层层网络计算后,数据分布。5.train loss不断上升,test loss不断上升,可能网络结构设计不当,超参设置不当,bug等。3.train loss趋于不变,test loss趋于不变,遇到瓶颈,需要减少学习率和批处理大小。1.train loss不断下降,test loss不断下降,网络正在学习。

2024-07-16 11:04:00 212

原创 处理不平衡数据的策略

在机器学习中,我们在使用模型训练数据时,时常会遇到一个问题,那就是数据不平衡,而且可能是极其不平衡。欠采样:这种方法认为多数类的数据中存在冗余,所以从多数类中进行欠采样,即从中选择一部分数据和少数类一起构成训练集。生成数据:过采样往往有很多重复的样本,数据单一,模型学习能力不足。那么在进行模型训练前,我们会做一起数据处理或改进模型的过程,怎么去缓解这种不平衡数据造成的后果。过采样:针对少数类进行有放回的自助法抽取更多的数据,以实现过采样,并和多数类一起构成训练集。深度学习中的自编码也可以用于数据的生成。

2024-07-16 11:03:01 284

原创 TopN热门新闻计算

采用flink实时计算topn热门新闻,主程序参考自http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/,稍微整理了一下程序,数据可以从参考链接中下载。.timeWindow(Time.minutes(5), Time.minutes(1)) //每隔1分统计最近5分钟内的每个news的点击量。/** 求某个窗口中前 N 名的热门点击新闻,key 为窗口时间戳,输出为 TopN 的结果字符串 *///行为发生的时间戳,秒。

2024-07-16 10:59:10 518

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除