百晓生知识处理库

最新推荐文章于 2021-12-27 21:43:12 发布

python & TwinCAT

最新推荐文章于 2021-12-27 21:43:12 发布

阅读量442

点赞数 1

分类专栏： python python九阴真经

本文链接：https://blog.csdn.net/gkbxs/article/details/111677298

版权

python 同时被 2 个专栏收录

15 篇文章 2 订阅

订阅专栏

python九阴真经

10 篇文章 0 订阅

订阅专栏

创造了这个知识处理库是为了用有限的时间更高效的学习知识的，整个知识库能自动对新知识进行预学习，抽取关键句，对学习之后的重点知识句子标注后能自动提取出来，对抽取或者摘录出来的知识进行关联计算，还可以按权重值来自动提取文章关键句。最终目标能按文章自动生成知识图谱，或者思维导图。

def lab2rule(lab): 将标签转换成适合中文匹配的列表的方法，供rululist使用，有一个返回
def txt2list(path):定义方法从文件加载列表，按、分割得到列表，用来做外部导入，一个返回
def txt2dict(path):定义方法从文件获取字典，用于按字典自定义翻译，或者替换文本
def geshichuli(mulupath,filepath):用于对pdf复制的字符格式处理，自动消除假换行，把pdf字符串不连续情况转换成txt连续句子的文本自动写文件格式处理后.txt，也带返回字符串列表
def clearBlankLine(sourcefileabspath,savefileabspath):清除文本里面的空行源路径，保存路径
def getparagraphsandcontent(filepath,qukongge=True):对全文进行处理，分割段落，去空格，分割句子，2个返回值一个段落，一个句子列表
def matchforline(rulelist,contentX,quanzhongshow=False)：核心匹配代码，输出的是匹配到的单行句子，关键词标注在句首，不带返回，只能print
def matchforline2(rulelist,contentX): 这个方法对每一句进行循环匹配，带返回，规则如果前后类似有可能返回多次，本方法不重建全文
def matchcount(rulelist,contentX):用来统计匹配次数的，返回一个匹配规则同样长度的列表，每个值是匹配到次数
def weightfunction(rulelist,path1,path2):用来计算权重值的，全文匹配和摘句结果进行权重值计算
def relevance(source2):从一个句子里提取两个标记符号，对两个标签进行产生关联
def dingyi(rulelist,contentX):根据经验自动生成专业名词库
def rebuildeverline(lablist1,contentX):核心代码，把词组列表替换全文，保持原来的段落格式，匹配关键词嵌入在句中，重建每一行
def chazidian(dict1,contentX):对自定义的字典进行替换，2个返回值
def readingtime(absfilepath):全文阅读时间计算
def KeyWordIntersection(key1,key2,article): 同时含有两个关键词的语句提取，同时含有key1和key2的句子
def KeyWordDiffSet(key1,key2,article): 提取含有key1而不含有key2的句子
def zhaiju(filesource):摘录出所有做了标记的语句，用于全文提取，人工学习后的知识整理，自动生成文件摘录.txt
def juziquchong2(filesource):新方法引用相似度计算来进行去重，解决集合去重需要非常精确才行，对重复信息进行舍去
def fenliPDF(filesource,savefile,start_page=0,end_page=1):用于分离pdf页面，提取页面
def zuhematch(*args,m=’’):组合匹配
def getfilesandpath(fileDir):获取文件夹下所有文件路径

python & TwinCAT

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
百晓生知识处理库

创造了这个知识处理库是为了用有限的时间更高效的学习知识的，整个知识库能自动对新知识进行预学习，抽取关键句，对学习之后的重点知识句子标注后能自动提取出来，对抽取或者摘录出来的知识进行关联计算，还可以按权重值来自动提取文章关键句。def lab2rule(lab): 将标签转换成适合中文匹配的列表的方法，供rululist使用，有一个返回def txt2list(path):定义方法从文件加载列表，按、分割得到列表，用来做外部导入，一个返回def txt2dict(path):定义方法从文件获取字典，用于
复制链接

扫一扫

专栏目录