遇见python是人生一次新的开始!
https://blog.csdn.net/gkbxs/article/details/116661288
转载请注明出处,百晓生原创
创造了这个知识处理库,一方面是弥补自然语言处理NLP在知识学习这个方面的不足,另一方面是为了提升自己的学习效率。如果计算机可以大大的提升我们的学习效率和办公效率,我们就不用和普通人那样去卷了,这也是我不断迭代这个库的精神动力也价值所在。如果计算机可以按我们的设想开始预习知识,提取知识,归类知识,推理知识,形成搜索引擎和思维导图,自动形成训练题库,强化记忆,那么这个意义就是颠覆性的。而很庆幸,现在基础功能已经有了,虽然还不完美,但是我还将继续迭代。知识处理引擎还有很多格式处理能力,办公处理能力,所以我做了__all__封装,既可以直接使用,也可以导入import到其他代码里面去再次开发。后面将开发TK或者其他界面来更好使用。当前版本是知识处理引擎1.0版本。
先展示功能吧,一图胜千言。
功能码99,输出当前版本和所具备的功能
功能码1:对学习的知识做的记号进行大规模自动摘录,节省了复制粘贴一半时间。
功能码2:可以根据自定义关键词进行抽取知识,隐藏了很多格式处理。
功能码3:对知识进行相似度去重和排序,用来清洗重复数据的。也是北冥神功啊,别人的语句自动清洗后免侵权就可以发布了。
功能码4:知识联想功能,可以不断通过A找到B,通过B找到C,不断联想下去。
功能码5:自动预习课本书籍,对关键词重点进行提前标注
功能码6:阅读字数和花费时间分析,自动统计全文,安排学习计划
功能码7:自动抽取文中全部单词
功能码8:获取文件夹下所有文件路径,进行大规模处理提前步骤
功能码9:提取部分内容,还不完美,需要再改
功能码10:掠过
功能码11:剪切板更新自动粘贴,只管复制自动写文件,比复制粘贴节省一半效率。
功能码12:根据自定义字典,自动翻译特殊代码,用来辅助代码学习哦
功能码13:合并多个文件为一个文件
功能码15:去除空行
此处神略其他功能,懒的找文件效果了
功能码21:去掉原有换行,按自定义字符重新换行。
还有其他很多功能还没加进来,单独作为子文件再介绍。知识分类器选择器等,模拟大爆炸分词拖动。
如果你有更多学习效率想法或者其他批量工作,可以来讨论哦。
知识处理引擎当前设计的部分函数
def lab2rule(lab): 将标签转换成适合中文匹配的列表的方法,供rululist使用,有一个返回
def txt2list(path):定义方法从文件加载列表,按、分割得到列表,用来做外部导入,一个返回
def txt2dict(path):定义方法从文件获取字典,用于按字典自定义翻译,或者替换文本
def txt2dict2(path):#定义方法从文件获取字典2,每一行对应一组字典
def geshichuli(mulupath,filepath):用于对pdf复制的字符格式处理,自动消除假换行,把pdf字符串不连续情况转换成txt连续句子的文本 自动写文件格式处理后.txt,也带返回字符串列表
def clearBlankLine(sourcefileabspath,savefileabspath):清除文本里面的空行 源路径,保存路径
def clearBlankLine2(fileabspath):#去空行保留原来路径和名字
def getparagraphsandcontent(filepath,qukongge=True):对全文进行处理,分割段落,去空格,分割句子,2个返回值 一个段落,一个句子列表
def matchforline(rulelist,contentX,quanzhongshow=False):核心匹配代码,输出的是匹配到的单行句子,关键词标注在句首,不带返回,只能print
def matchforline2(rulelist,contentX): 这个方法对每一句进行循环匹配,带返回,规则如果前后类似有可能返回多次,本方法不重建全文
def Loopmatch(list1,list2,contentX):#循环匹配,在弱关键词中匹配结果里面再匹配,过滤掉没用的。在列表一的结果中找列表2需要的
def matchcount(rulelist,contentX):用来统计匹配次数的,返回一个匹配规则同样长度的列表,每个值是匹配到次数
def weightfunction(rulelist,path1,path2):用来计算权重值的,全文匹配和摘句结果进行权重值计算
def relevance(source2):从一个句子里提取两个标记符号,对两个标签进行产生关联,最终生成知识图谱
def dingyi2(rulelist,contentX):根据经验自动生成专业名词库,根据以上特定获取可能是定义的所有句子,‘称为’,‘称作’,‘称做’,‘叫做’,‘叫作’,‘定义’,‘名词解释’,‘概念’,‘是指’,‘所谓’,‘顾名思义’,‘也称’,‘又称’
def rebuildeverline(lablist1,contentX):核心代码,把词组列表替换全文,保持原来的段落格式,匹配关键词嵌入在句中,重建每一行
def chazidian(dict1,contentX):对自定义的字典进行替换,2个返回值
def batchrename(path2,dict2): #批量修改文件名
def readingtime(absfilepath):全文阅读时间计算
def KeyWordIntersection(key1,key2,article): 同时含有两个关键词的语句提取,同时含有key1和key2的句子
def KeyWordDiffSet(key1,key2,article): 提取含有key1而不含有key2的句子
def zhaiju(filesource):摘录出所有做了标记<>的语句,用于全文提取,人工学习后的知识整理,自动生成文件摘录.txt
def zhaiju2(filesource):摘录出所有做了标记】的语句
def keyword_advance(filesource): #把句子中关键词提前,用来知识整理排序归类的
def simplify_sentence(filesource):简化句子的,把每句中带】的都提取连接起来
def mycollector(a,blist,set=0.9): 用来收集新知识并判断是不是在列表里的,如果有重复就不收集,a为待收集项,blist为已经收集到的
def quchong(mylist,set=0.9):#新方法引用相似度计算来进行去重,对字符串列表进行相似度去重,去掉非常相似的,清除多余 新方法引用相似度计算来进行去重,解决集合去重需要非常精确才行,对重复信息进行舍去
def paixu2(filepath):文章清洗器,对别人的文字先去掉序号,然后进行排序,生成自己的进行发布
def fenliPDF2(filesource,start_page=0,end_page=1):用于分离pdf页面,提取页面,不用自己再去命名了
def getallpdfpagenum(fileDir):获取文件夹里所有pdf页数
def split_all_pdf(fileDir): #用于批量分割pdf
def covx_to_pdf(infile): #可以使用,但是会被加密软件加密pdf打不开
def zuhematch(*args,m=’’):组合匹配
def getfilesandpath(fileDir):获取文件夹下所有文件路径
def pyrelevance(filepath,labrule): 用来分析python库结构的,包引用关系,定义的方法
def Spread_knowledge(filepath):知识联想发散功能,读取文件后,按关键词不断发散,由A发现B,由B发现C,一直下去
def str_get_eng(text):#从字符串中分离出所有英文单词
def file_get_eng(file):#从文章中处理成字符串,然后调用str_get_eng,直接从文本文件来处理
def fuhaofenhang(file):# 去除原来换行符按自定义符号重新分割文本行
def list_all_files(rootdir): #列出文件夹下所有的目录与文件
def getalldir(filedir):#获取所有文件夹
def allpy2rele(dirpath): 所有文件夹子文件夹下一切py转txt文件的应用关系,python库包分析工具
def getText():#从剪切板获取文本内容
def pyperclip2txt():#剪切板更新自动写入文件保存
def clipborad_translate(dictfile):#剪切板更新自定义翻译,解释
def alldoc2txt():所有doc文件转成txt
def alltxt2one(dirpath):#合并多个txt成一个txt
def all_func():所有功能的一个应用封装口,不写代码输路径就可以用
python增效工作室
python增效工作室
用python提供高效办公服务,营销服务和信息处理服务
历史文章列表:
用python快速摘录文章
python九阴真经之风起云涌
用python调用Ai进行图片文字识别
老铁们快上车,用python解锁CAD画图的新姿势
漫谈python在金融量化中的应用
python用最快的速度完成一份文档手册编写
python把喜爱的电影中的音乐提取出来
python的天龙世界
python画朵玫瑰送小主们
python数据可视化的各种炫酷效果
python在Excel里作画
python在工控行业的效率爆炸
用python把英文文档翻译成中文文档
爬了几万篇文章看python OpenCV应用
目前正在设计的几个python构想
四个python构想已经实现了三个半
python是照进人生的一束光
必须拿下的深度学习