王子悦
最近这两周考试有点忙,博客更新的不怎么勤,完成的工作也比较少。
今天仔细看了一下序列挖掘的原理,发现我上次写的那个访问记录方式完全不够用的啊,那样的就没有时间序列的感觉了。但是这样抛弃掉计数加一的方法,直接多一次访问多一条记录也不行,相当于记录下来全部的访问,这样上线没几天访问量就会爆炸。考虑到如果我最近在学某一门课,那么可能会频繁的访问同一门课,而连续的多次访问对于序列来说是和一次访问等价的,这样我就有了新思路:
以用户为主体,如果这个用户的上次访问和这次访问是同一个课程,那么数据库里这一用户的最后一条记录计数加一;如果不是同一个课程,认为开始学某个新的课程了,创建一条新纪录。
邵长旭
改了一些课程界面的UI,同时研究了一下fnlp,做了敏感词的过滤审核,正在做关键词的提取分析
研究了对插入图片的实现
今天做了NLP的一些研究:
首先下载编译了FNLP的jar包:具体过程见https://github.com/FudanNLP/fnlp/wiki
之后尝试了一些FNLP的功能,我做的首个任务就是提取关键词:
首先初始化停用词和分隔符,然后分词:
对以下段落分词:
比特币的概念最初由中本聪在2009年提出,比特币是一种P2P形式的数字货币。点对点的传输意味着一个去中心化的支付系统。与大多数货币不同,比特币不依靠特定货币机构发行,它依据特定算法,通过大量的计算产生,它是一种虚拟的货币。
效果:
可以看到提取关键词效果不是特别好,最主要的应该是比特币这个词,所以我想加入句子结构的权重:
利用以下函数对句子结构进行分析:
结果如下:
第一列是编号,第二列是词,第三列是词性,第四列是依赖的序号,最后一个是结构
大体的想法是主语和谓语的权重较高,名词和动词的权重较高,依赖关系最多的(在树结构中孩子最多的那个节点)权重高,然后与本来提取关键词得到的得分一起加权计算一个新的得分,得分高的最为关键词。具体明天实现
梁惠欣
尝试使用抽取式摘要生成技术,正在研究textRank+word2vec的实现