百晓生知识处理库

创造了这个知识处理库是为了用有限的时间更高效的学习知识的,整个知识库能自动对新知识进行预学习,抽取关键句,对学习之后的重点知识句子标注后能自动提取出来,对抽取或者摘录出来的知识进行关联计算,还可以按权重值来自动提取文章关键句。最终目标能按文章自动生成知识图谱,或者思维导图。

def lab2rule(lab): 将标签转换成适合中文匹配的列表的方法,供rululist使用,有一个返回
def txt2list(path):定义方法从文件加载列表,按、分割得到列表,用来做外部导入,一个返回
def txt2dict(path):定义方法从文件获取字典,用于按字典自定义翻译,或者替换文本
def geshichuli(mulupath,filepath):用于对pdf复制的字符格式处理,自动消除假换行,把pdf字符串不连续情况转换成txt连续句子的文本 自动写文件格式处理后.txt,也带返回字符串列表
def clearBlankLine(sourcefileabspath,savefileabspath):清除文本里面的空行 源路径,保存路径
def getparagraphsandcontent(filepath,qukongge=True):对全文进行处理,分割段落,去空格,分割句子,2个返回值 一个段落,一个句子列表
def matchforline(rulelist,contentX,quanzhongshow=False):核心匹配代码,输出的是匹配到的单行句子,关键词标注在句首,不带返回,只能print
def matchforline2(rulelist,contentX): 这个方法对每一句进行循环匹配,带返回,规则如果前后类似有可能返回多次,本方法不重建全文
def matchcount(rulelist,contentX):用来统计匹配次数的,返回一个匹配规则同样长度的列表,每个值是匹配到次数
def weightfunction(rulelist,path1,path2):用来计算权重值的,全文匹配和摘句结果进行权重值计算
def relevance(source2):从一个句子里提取两个标记符号,对两个标签进行产生关联
def dingyi(rulelist,contentX):根据经验自动生成专业名词库
def rebuildeverline(lablist1,contentX):核心代码,把词组列表替换全文,保持原来的段落格式,匹配关键词嵌入在句中,重建每一行
def chazidian(dict1,contentX):对自定义的字典进行替换,2个返回值
def readingtime(absfilepath):全文阅读时间计算
def KeyWordIntersection(key1,key2,article): 同时含有两个关键词的语句提取,同时含有key1和key2的句子
def KeyWordDiffSet(key1,key2,article): 提取含有key1而不含有key2的句子
def zhaiju(filesource):摘录出所有做了标记的语句,用于全文提取,人工学习后的知识整理,自动生成文件摘录.txt
def juziquchong2(filesource):新方法引用相似度计算来进行去重,解决集合去重需要非常精确才行,对重复信息进行舍去
def fenliPDF(filesource,savefile,start_page=0,end_page=1):用于分离pdf页面,提取页面
def zuhematch(*args,m=’’):组合匹配
def getfilesandpath(fileDir):获取文件夹下所有文件路径

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值