本周工作报告
本周完成工作如下:
1、根据DIPRE算法实现(https://blog.csdn.net/qq_39591838/article/details/102628466)这篇文章中的代码进行了改进,改进后的代码相比于原代码的变化及具体流程如下:
https://blog.csdn.net/qq_39591838/article/details/102750858
2、在数据库中插入了255条国内书城网的真实网址,及六条元组,根据改进后的算法运行,运行得到的结果如下:
https://blog.csdn.net/qq_39591838/article/details/102751044
3、在运行过程中改进了一些问题,大部分已经写在1中的文章里了,而有的网址可能含有多个相同的作者及相同的标题,可能需要查询到这多个元组中相距最近的一个元组,但其实并不适用于所有网页,不过以防以后可能有用,记录代码如下;
def SearchNearest(author,title,string): # 查询文本中,取title和author最近的位置
AutPattern = re.compile(author,re.I) # 忽略大小写进行查询
AP = AutPattern.finditer(string)
TitlePattern = re.compile(title,re.I) # 忽略大小写进行查询
TP = TitlePattern.finditer(string)
minDistance = len(string)
for AutItem in AP:
posAut = AutItem.span()[0]
for TitleItem in TP:
posTitle = TitleItem.span()[0]
dis = posAut - posTitle
if dis < 0:
dis = -dis
if dis < minDistance:
minDistance = dis
ResAuthor = posAut
ResTitle = posTitle
res = {'posAuthor':ResAuthor,'posTitle':posTitle}
return res
至此,对DIPRE算法论文的阅读、实现及改进算是基本完成,后续可能会写一篇总结性的文章。