本周工作报告
本周完成工作如下:
1、根据论文DIPRE算法内容编写python代码,已跑通测试用例和实际数据,代码流程如下(内容可能较多):https://blog.csdn.net/qq_39591838/article/details/102628466
2、根据算法内容对代码做了细节性的改进,详情同见上述链接中的小结部分
3、记录了在写代码中遇到的一些问题及其处理方式
下周工作计划
1、单独编写python爬虫获取数据来源,计划爬取至少一个网站的大多数子界面,并插入数据库
2、在实际编写代码的过程中,发现原算法有许多可以改进的地方,为了实际应用的方便,提出以下算法改进的步骤:
1.对于一个网页,首先利用现有可匹配的模式对其进行搜索(初始化时模式集为空,跳过该步骤进行第二步)
如果搜索出的结果,即元组不为空,则将元组集存入数据库,并标记该网页已搜索或直接从数据库中删除
如果搜索的结果为空,则进行第二步
2.利用现有的种子,即现有的元组对,对该网页搜索出现的所有事件
如果出现的事件数小于1或者没有查找到事件,则不继续处理该网页转为下一个网页,继续进行步骤1
如果出现的事件数大于等于2,则尝试利用这些事件形成模式,如果能形成模式则将模式存入到数据库中,并利用该模式对该网页进行搜索,将搜索到的元组对集加入到数据库中
如果出现的事件数大于等于2,且利用这些事件不能形成符合特异性的模式,则标记该网页已搜索或直接删除,转到处理下一个网页进行步骤1
3.转到下一个网页,重复步骤1,直到数据库中所有的网页都被标记,或者搜索得到的元组对大于等于某一个值则停止