- 博客(66)
- 收藏
- 关注
原创 spark实现swing算法 -附Scala代码
本文记录了在工作中使用swing算法实现i2i的相关代码内容,如果做相关工作可以邮件和我联系 liangz1996@hotmail.com。itemcf相关内容参考之前。
2022-09-01 16:04:41 1051
原创 spark实现item2Vec算法-附scala代码
本文记录了使用spark实现item2vec算法的相关内容,欢迎做相关工作的同学与我联系zhaoliang19960421@outlook.com/*** 本代码以做脱敏处理,与原公司、原业务无关,特此声明/package *import *.SparkContextUtils.createSparkSessionimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.ml.feature.{Word2Vec, W
2022-04-06 18:51:39 1822
原创 01背包/完全背包-leetcode题目总结
本文记录了在学习leetcode中有关01背包/完全背包的相关问题,如果有同学在做相关内容,可以邮件(zhaoliang19960421@outlook.com)和微信(BestCoder_BestLife)和我沟通联系在学习的过程中,学习参考了以下文档,在此表示感谢:https://leetcode-cn.com/circle/article/lUki6J/https://leetcode-cn.com/circle/article/KPsfIC/leetcode相关题目416. 分割等和子集
2022-02-21 17:04:35 819
原创 并查集-leetcode题目总结
本文记录了有关并查集在leetcode中的相关情况,如果有同学在做相关的内容,可以邮件(zhaoliang619960421@outlook.com)或微信(BestCoder_BestLife)与我联系本文参考了以下的相关文档,在此对文档作者表示感谢:https://zhuanlan.zhihu.com/p/93647900https://blog.csdn.net/dingdingdodo/article/details/106272854https://segmentfault.com/a/1
2022-01-09 21:53:50 3779
原创 spark实现ALS算法-附scala代码
本文记录了使用scala语言在spark上实现ALS模型的相关内容,如有问题可以邮件(zhaoliang19960421@outlook.com)或微信(BestCoder_BestLife)与我联系有关协同过滤的相关内容详见 spark协同过滤算法-附scala代码在itemCF中以user-item-score矩阵为输入,通过计算在原始矩阵中的item向量(每个用户对该向量的行为为评分,全部用户的评分向量)之间的相似度来得到推荐相似的item。采用这样的方式依赖的是当两个item有相同的用户有行为时
2021-08-05 11:54:43 1561
原创 FM系列模型原理-附tf2实现
本文记录了有关FM系列模型的相关数学原理,欢迎与我沟通 zhaoliang19960421@outlook.com
2021-07-28 15:48:49 241
原创 spark实现itemcf-附scala代码
本文记录了在spark上协同过滤算法的相关内容,如果有做相关工作的同学,可以邮件与我联系 zhaoliang19960421@outlook.com本文参考了spark协同过滤,在此表示感谢协同过滤算法的本质是在全局范围内统计用户的行为,对每个行为进行打分记录,找到行为最相似的两人或者所有人的行为最相似的两个物品。具体的协同过滤的过程如下图所示其中cos距离的计算方式如下图所示具体的操作方式如下( 以用户的协同过滤为例):在全局范围对,每个用户对每个商品进行打分(对于不同的行为可以给与不同的
2021-05-08 16:00:32 2123 8
原创 莫里斯算法实现二叉树的中序、前序、后序遍历,python实现
本文将记录有关莫里斯算法实现二叉树遍历的相关内容,如果有相关内容的同学欢迎邮件与我联系 zhaoliang19960421@outlook.com相关内容Leetcode-94 二叉树的中序遍历Leetcode-144 二叉树的前序遍历
2020-09-17 00:30:11 2653 1
原创 Leetcode-144 二叉树的前序遍历的三种方式-迭代、递归、莫里斯,Python实现
给定一个二叉树,返回它的前序遍历。具体的结题思路见代码注释# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution: '''迭代法''' def preorderTraversal(self, ro
2020-09-16 20:52:00 259 1
原创 Leetcode-94 二叉树的中序遍历的三种方式-迭代、递归、莫里斯,Python实现
LeetCode94 给定一个二叉树,返回它的中序遍历。示例:具体的思路和解题方法见代码注释# Definition for a binary tree node.# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Noneclass Solution: '''递归法''' def inorderTrave
2020-09-16 20:48:00 243
原创 PaperReading-KG2E 《Learning to Represent Knowledge Graphs with Gaussian Embedding》
本文时 KG2E,《Learning to represent knowledge graphs with gaussian embedding》的论文阅读笔记,如果有做相关工作的同学可以与我联系 zhaoliang19960421@outlook.com背景之前的TransX系列的论文都是在欧式空间中对实体和关系进行表征,然后利用基于空间中点相似度的计算方法来计算势能(通过关系翻译的头实体和真实尾实体之间的差距)在论文中提出了之前的Trans系列论文没有关注到的点,在本文中称之为实体/关系的准确性
2020-06-20 18:48:06 2500 18
原创 PaperReading-TranSparse《Knowledge Graph Completion with Adaptive Sparse Transfer Matrix》
本文记录了有关TranSparse《Knowledge Graph Completion with Adaptive Sparse Transfer Matrix》论文的相关情况,如果有做相关内容的同学可以邮件与我联系 zhaoliang19960421@outlook.com背景之前的基于翻译模型中,将所有的关系是按照同一个标准来进行翻译,没有考虑关系在链接实体上的特性,在论文中将这种由于关系在链接实体上的不同,定义成了两个问题,异构性和平衡性异构性:不同的关系链接的头尾对儿的个数不一样实际
2020-06-20 17:08:15 642
原创 PaperReading-TransA《TransA: An Adaptive Approach for Knowledge Graph Embedding》
本文记录了有关阅读TransA论文的相关情况.如果有在做相关工作的同学,欢迎与我沟通联系 zhaoliang19960421@outlook.com背景TransA论文的思路也是对于TransE的改进,目的也是来改进TramsE中无法解决的自反、一对多、多对一的关系问题,但是在TransA中解决问题的方法是来来修正在之前集合模型中比较简单的评价函数的方法在之前的翻译模型中,都采用的是计算得到的尾实体和标准尾实体之间的欧式距离,在计算欧式距离的时间将所有的维度都没有取消量纲下进行计算的,那么按照论文中的
2020-06-20 17:06:44 504
原创 PaperReading-TransR,《Learning Entity and Relation Embeddings for Knowledge Graph Completion
本文记录了阅读TransR论文时的相关内容,如果有做相关工作的同学,欢迎与我沟通联系 zhaoliang19960421@outlook.com背景TransR论文的提出还是为了来解决在TransE中无法解决的自反、一对多、多对一的关系问题。有一个很显然的想法就是,在知识图谱中的实体和关系是不一样,那么他们存在的语义空间也就应该不一样,实体空间就是专门的来表示实体上的属性,关系空间就是来表示实体之间的关系内容的。TransR就是利用这样的想法,对于实体和关系分别构建了一个空间(空间维度可以一样,也就
2020-06-11 22:57:43 544 2
原创 PaperReading-TransD,ACL2015,《Knowledge Graph Embedding via Dynamic Mapping Matrix 》
本文记录了在阅读TransD论文时的相关内容,如果有同学在做相关工作,欢迎邮件与我沟通联系 zhaoliang19960421@outlook.com背景TransE无法解决的自反、一对多、多对一关系问题,在TransR/CTransR中通过将实体和关系在不同空间表示的方法进行了解决。TransR的做法是让实体空间单纯的表示实体的属性信息,关系空间单纯的表示实体之间的关系,对于每个实体都有一个特定的映射矩阵,通过这个矩阵将实体映射到关系的空间中,在关系空间中进行TransE.但是TRansR存在几个
2020-06-11 22:56:42 415
原创 PaperReading-TransM《Transition-based Knowledge Graph Embedding with Relational Mapping Properties》
本文记录了TransM《Transition-based Knowledge Graph Embedding with Relational Mapping Properties》的论文阅读,如果有同学在做相关的工作,请通过邮件和我沟通联系zhaoliang19960421@outlook.com背景TransM算法是基于TransE算法进行的改进,目的还是为了解决在TransE中无法...
2020-05-30 17:25:40 1132 2
原创 PaperReading-TransH《Knowledge Graph Embedding by Translating on Hyperplanes》
本文记录了有关阅读TransH《Knowledge Graph Embedding by Translating on Hyperplanes》的相关内容,如果有同学在做相关的工作,可以与我联系zhaoliang19960421@outlook.com背景TransH 论文是在基于TransE进行改进的,TransE算法中将每个关系认为是在实体空间中对于三元组的翻译,具体意思就是说在向量空间中,关系向量负责将头实体向量翻译成尾实体向量,这也是所有的Trans算法的思路。但是在TransE算法中无法解决
2020-05-29 10:14:01 544
原创 PaperReading-TransE《Translating Embeddings for Modeling Multi-relational Data》
本文记载有关阅读《Translating Embeddings for Modeling Multi-relational Data》TransE论文的阅读笔记,如果有做相关工作的同学可以邮件和我沟通联系zhaoliang19960421@outlook.com背景知识图谱通常是用一个三元组(前件h,关系r,后件t)来表示一条知识,比如:(中国科学院大学,地点,北京),要使用向量表示的话,可以使用one-hot向量(实际使用中通常是mulit-hot向量)来表示。但是问题也来了,one-hot向量维数太
2020-05-27 11:55:00 463
转载 合页损失函数 HingeLoss
理解Hinge Loss (折页损失函数、铰链损失函数)Hinge Loss 是机器学习领域中的一种损失函数,可用于“最大间隔(max-margin)”分类,其最著名的应用是作为SVM的目标函数。在二分类情况下,公式如下:L (y) = max(0 , 1 – t⋅y)其中,y是预测值(-1到1之间),t为目标值(1或 -1)。其含义为,y的值在 -1到1之间即可,并不鼓励|y|>1,即让某个样本能够正确分类就可以了,不鼓励分类器过度自信,当样本与分割线的距离超过1时并不会有任何奖励。目的在
2020-05-23 09:44:16 4490
原创 PageRank总结&python实现
本文将记录在学习pagerank的有关内容,如果您也在做相关的工作请与我邮件沟通交流 zhaoliang19960421@outlook.com文章目录pagerank理论及推导PageRank涉及到的数学内容马尔科夫过程pagerank的python实现参考网页链接pagerank理论及推导pagerank算法是对于在一个有向图上,找到每个节点的重要性程度,最终得到每个节点的重要性打分。...
2020-04-11 17:32:49 3654
原创 leetcode-37-解数独
编写一个程序,通过已填充的空格来解决数独问题。一个数独的解法需遵循如下规则:数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。空白格用 ‘.’ 表示。一个数独。答案被标成红色。Note:给定的数独序列只包含数字 1-9 和字符 '.' 。你可以假设给定的数独只有唯一解。给定数独永远是 9...
2020-03-25 16:14:51 273
原创 leetcode46-全排列-python
在给定一个字符串ABC,输出该字符串的所有排列组合 ABC ACB BAC BCA CAB CBA链接:牛客原址# 递归法class Solution: def Permutation(self, ss): if len(ss) <= 1: return ss res = set() for i in ra...
2020-03-21 20:53:21 857
原创 leetcode-2-链表两数相加
leetcode -2 链表的两数相加给出两个非空的链表用来表示两个非负的整数。其中,它们各自的位数是按照逆序的方式存储的,并且它们的每个节点只能存储一位数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0 开头。示例:输入:(2 -> 4 -> 3) + (5 -> 6 -> 4)输出:7 ...
2020-03-20 23:04:21 160
原创 leetcode-209-最小连续子数组
leetcode-209给定一个含有 n 个正整数的数组和一个正整数 s ,找出该数组中满足其和 ≥ s 的长度最小的连续子数组。如果不存在符合条件的连续子数组,返回 0。示例:输入: s = 7, nums = [2,3,1,2,4,3]输出: 2解释: 子数组 [4,3] 是该条件下的长度最小的连续子数组。进阶:如果你已经完成了O(n) 时间复杂度的解法, 请尝试 O(n lo...
2020-03-20 22:58:12 977
原创 leetcode-3-python-无重复字符的最长子串
‘’’leetcode-3 无重复字符的最长子串给定一个字符串,请你找出其中不含有重复字符的 最长子串 的长度。示例 1:输入: "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。示例 2:输入: "bbbbb"输出: 1解释: 因为无重复字符的最长子串是 "b",所以其长度为 1。示例 3:输入: "pwwkew"输出...
2020-03-20 22:52:45 1156
原创 python对象赋值与引用
在学习做题过程中又一次遇到了python对象复制的问题,在此将其一并做个总结。如果有哪些同学做相关内容请邮件与我联系1318525510@qq.compython对象在python中的赋值语本质上是对内存地址的应用a = [1,2,3]这句赋值语句,python执行的操作是在内存中画一片地新建一个list对象,然后在这个list对象中填充上1,2,3,然后把把这片内存地址起了个名字叫a,...
2020-03-17 22:43:42 586
原创 python实现Dijkstra算法的堆加速
本文将记录python编程实现迪杰斯塔拉算法的堆加速的相关内容迪杰斯塔拉算法是一个动态规划算法,目的是在正权重的又向图中到一个从点A到点B的最短路径(如果有的话)。具体的算法内容在python脚本中。'''该python脚本为迪杰斯塔拉算法的堆加速python实现,利用堆加速可以将时间复杂度降低到mlogn利用Dijkstra可以在一个正权重的有向图中找到从一个开始节点到可以到达的所有节点...
2020-03-03 21:04:03 901
原创 高德地图获得POI及Python实现
本文记录使用高德地图获得所在城市的POI数据,本文学习自blog如果有做相关工作的同学可以与我邮件联系 zhaoliang_machinelearning@outlook.com在之前的百度地图获得POI及Python实现中获得POI数据的方法是根据所在地的经纬度,采用逆地理坐标方法获得当地的POI,返回值是josn数据。在高德地图的API接口中直接对所在地城市的POI数据进行查询,具体的信...
2019-10-14 21:34:37 3251 11
原创 机器学习-Python手动实现决策树
本文将记录有关决策树的相关内容文章目录决策树分类树回归树剪枝Python实现决策树树模型是在日常工作中使用频率最高的模型之一,因为其较好的模型效果与良好的可解释性经常作为baseline模型使用,在平时使用时经常使用sklearn库使用,最近遇到了一个单子需要完全手动实现决策树相关内容,在此将其记录下来,如果有同学在做相关内容请与我邮件联系zhaoliang19960421@outlook....
2019-10-10 19:16:55 1194
原创 禁忌关系抽取
文章目录禁忌关系抽取数据来源抽取方法结果展示药物知识图谱叮当快药知识图谱(妇科)叮当快药知识图谱本体知识图谱说明数据说明禁忌关系抽取数据来源寻医问药网站爬取的所有药物按照药物名称去重之后的药物数据集,共有12318个药物抽取方法在寻医问药中的禁忌关系共有四种,其中药物-禁忌-成分、药物-禁忌-疾病、药物-禁忌-药物三种禁忌关系的抽取方法为:如果某种成分、疾病、药物的表达出现在了该药物...
2019-06-12 23:10:22 1097
原创 创新工场—处理药物数据中使用过的代码
本文记录了在创新工场实习过程中对药物说明书进行操作的代码,全部是进行规则匹配和正则字符串没什么技术含量,仅做个记录方便搬运# 处理爬取的药物说明书数据集时使用的代码,药物说明书链接:https://pan.baidu.com/s/1v1puWYLY8lDnbKKEPVTFgg 密码:jjw7import reimport pandas as pdf = open('./药品说明书(除西药...
2019-04-29 16:30:51 871
原创 人工智能自动组方-根据病症相似性进行匹配推荐药方
文章目录####根据病症相似性进行匹配推荐药方#####数据预处理对于有证型标签的279条带下病的数据进行人工标注实体分为病名、病症、证型、治疗方法四个类别,其列表长度分别为37、1082、62、183对于1082维的病症类别,通过与中医字典进行对比,计算L式编辑距离与人工操作,将病症化简为471种病症,得到有关带下病病症字典,其中默认每种病症的第一个描述方式为标准描述方式。(例:[偏头...
2019-04-24 17:43:43 2015
原创 机器学习——KNN
文章目录ML_KNN需要的数学定义:ML_KNN需要的数学定义:m为样本总个数;K为最邻近的个数;Y为所有标签的集合,总个数为 n;lll为具体的一个标签,默认为标签 1;X 为一个实例;YxY_xYx为实例 X所对应的标签集合;Yx{Y_{x}}Yx 是实例x 的标签向量,是1n的one-hot行向量,元素所对应的标签若为1,则该实例有标签;N(x) 为实例x的k个最邻...
2019-04-24 17:42:27 136
原创 个人总结—工作面笔试问题—截止20190402
本文将记录在找工作中遇到的面试、笔试问题,以供他人参考与自己思考总结,如果有问题,可以留言与我沟通!20190314—阿里小蜜—NLP算法实习生—电话面试这次应该是简历面试,问的问题都是简历上写的,问的深度也不是很深,就是在项目中使用过的东西,所以简历不要编,实事求是。这次面试在晚上突然一个电话来了,说要聊聊,没有准备啥就直接上了,还不知道结果。自我介绍简历中写的分类器算法,说下最熟...
2019-03-14 22:58:43 612
原创 机器学习—基于百度翻译的PDF翻译代码
本文记录了使用百度翻译的对PDF文档进行翻译的代码,这个代码学习自马泽瑞from urllib import request, parseimport jsonimport sysimport importlibimport reimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocumentfrom...
2019-03-11 15:08:33 573
原创 百度地图获得POI及python实现
文章目录百度地图API整体流程python实现本文将记录有关利用百度地图API去搜索一个城市内的POI的相关内容百度地图API百度地图API服务说明见其主页:http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-geocoding地址解析:根据地址获取坐标http://api.map.baidu.com/g...
2018-12-19 21:17:57 4308 8
原创 机器学习—线性判别分析LDA
文章目录广义瑞利商线性判别分析多类别LDA降维LDA和PCA本文将记录有关LDA线性判别分析的内容。广义瑞利商定义瑞丽商函数f(x)=xTAxxTxf(x) = \frac{x^TAx}{x^Tx}f(x)=xTxxTAx其中A矩阵的共轭转置矩阵和自己相等及AH=AA^H=AAH=A,如果A矩阵为实数矩阵的话,那么AT=AA^T=AAT=A,广义瑞利商的最大值和最小值在矩阵A的最大最小...
2018-12-05 21:18:55 388
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人