工作周报(20191012-20191018)

本周工作报告

本周完成工作如下:

1、根据论文DIPRE算法内容编写python代码,已跑通测试用例和实际数据,代码流程如下(内容可能较多):https://blog.csdn.net/qq_39591838/article/details/102628466

2、根据算法内容对代码做了细节性的改进,详情同见上述链接中的小结部分

3、记录了在写代码中遇到的一些问题及其处理方式

下周工作计划

1、单独编写python爬虫获取数据来源,计划爬取至少一个网站的大多数子界面,并插入数据库

2、在实际编写代码的过程中,发现原算法有许多可以改进的地方,为了实际应用的方便,提出以下算法改进的步骤:

        1.对于一个网页,首先利用现有可匹配的模式对其进行搜索(初始化时模式集为空,跳过该步骤进行第二步)

                   如果搜索出的结果,即元组不为空,则将元组集存入数据库,并标记该网页已搜索或直接从数据库中删除

                   如果搜索的结果为空,则进行第二步

        2.利用现有的种子,即现有的元组对,对该网页搜索出现的所有事件

                    如果出现的事件数小于1或者没有查找到事件,则不继续处理该网页转为下一个网页,继续进行步骤1

                    如果出现的事件数大于等于2,则尝试利用这些事件形成模式,如果能形成模式则将模式存入到数据库中,并利用该模式对该网页进行搜索,将搜索到的元组对集加入到数据库中

                    如果出现的事件数大于等于2,且利用这些事件不能形成符合特异性的模式,则标记该网页已搜索或直接删除,转到处理下一个网页进行步骤1

        3.转到下一个网页,重复步骤1,直到数据库中所有的网页都被标记,或者搜索得到的元组对大于等于某一个值则停止

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值