nlp
喜欢地上爬的孩子
这个作者很懒,什么都没留下…
展开
-
python-LAC使用方法的相关总结
代码如下:from LAC import LAC# 分词的功能def fenci(): # 装载分词模型 lac = LAC(mode='seg') # 单个样本输入,输入为Unicode编码的字符串 text = u"LAC是个优秀的分词工具" seg_result = lac.run(text) print(seg_result) # 批量样本输入, 输入为多个句子组成的list,平均速率会更快 texts = [u"LAC是个原创 2021-12-01 09:38:36 · 2623 阅读 · 0 评论 -
python直接获取pdf图片的时候,报错:doc._getXrefLength和doc.getObjectString(i)
将其进行修改:fitz 库 安装的不是pip install fitz 而是 pip install pymupdf报错AttributeError: ‘Document’ object has no attribute ‘_getXrefLength’ REF = doc._getXrefLength()改成 REF = doc.xref_length()定义对象字符串 taxt = doc.getObjectString(i)改成 text = doc.xref_原创 2021-11-30 16:18:10 · 5152 阅读 · 1 评论 -
python通过txt文本中提取目录(无论文章是否将目录提取到文章开头)
通过正则表达式来识别文章中的标题:以参考文献为截至import re# 分析headerdef main_read_txt(): url = "txt\\zhengwen.txt" with open(url, "r", encoding='utf-8') as f: count = f.readlines() for line in count: if line.find('参考文献(References)') < 0原创 2021-11-17 11:15:05 · 1390 阅读 · 0 评论 -
python通过库自带函数和自己编写的函数-实现的一个中文文本摘要程序(两种方法)
方法一:(自带函数操作)# 通过使用hanlp中的函数HanLP.extractSummary('正文', 10)方法二:(自定义函数操作)# coding:utf-8import nltkimport numpyimport jiebaimport codecsN = 100 # 单词数量CLUSTER_THRESHOLD = 5 # 单词间的距离TOP_SENTENCES = 5 # 返回的top n句子# 摘要提取几句话-分句def sent_tokenize原创 2021-11-15 20:38:24 · 1367 阅读 · 0 评论