自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 python字符串模糊匹配 - RapidFuzz

之前已介绍了字符串模糊匹配的应用以及FuzzyWuzzy包的使用。目前使用较多的是运行速度更快的RapidFuzz,从名字即可看出其特点。RapidFuzz是一个使用python和C++编写的字符串匹配模块,使用了与FuzzyWuzzy相同的字符串相似度计算方法。RapidFuzz是MIT licensed,可在任何地方使用,而FuzzyWuzzy需要遵守GPL license;RapidFuzz提供更多字符串相似度计算方式,比如 hamming,jaro_winkler;

2022-09-15 21:46:34 3483

原创 python字符串模糊匹配 - FuzzyWuzzy

字符串模糊匹配在很多问题中有实际价值。比如NER或任何词条关联问题,将不规范的词条与标准词条进行链接匹配。在数据量大或包含关系复杂时,使用优秀的工具包可极大提升效率。FuzzyWuzzy既是这样一个可进行字符串模糊匹配的python包,根据Levenshtein Distance(也被称为Edit Distance,指两个字符串,有一个转换成另一个所需要的最少操作次数)计算字符串之间的差异。这在序列比对中也是很常用的算法。编辑距离越小,两个字符串相似度越高。

2022-09-11 16:51:30 10116

原创 python内存性能分析

之前遇到一些内存问题,把上面的大多数用了个遍,发现除了memory_profiler 能提供最直接的信息外,其他的并没有特殊的帮助。当然具体问题具体分析。

2022-08-30 23:27:09 3261

原创 NLP标签不均衡的文本多分类

自然语言处理中,文本多分类是最常见的需求之一。如果标注数据量大且样本均衡,任选一个bert模型都能达到非常好的准确度。但实际应用中往往面临的是数据量小,标签不均衡,标注错误等各种预想之外但又普遍存在的问题。如何根据实际情况解决问题,获得不错的效果才是我们需要研究的。的详细用法及更多功能可参考官方文档,提供了简洁的使用方法。则提供了更灵活的与语义,文本搜索相关的API,可根据类型,选择对用的损失函数等。损失函数的选择对模型的准确度影响非常大。.........

2022-08-10 21:22:04 758

原创 python处理pdf文件

对pdf文件的常见操作需求包括读取pdf中的文字图表,新建或截取pdf,pdf与其他格式的转换等。通过代码可更灵活的实现各种功能需求。在众多可处理pdf的包中选择PyMuPDF进行介绍。PyMuPDF是MuPDF的python接口,可处理 的文件格式后缀包括 pdf,xps,oxps,cbz,fb2, epub。另外一些也可处理10余种常见图片格式,包括:png,jpg,bmp,tiff等。.........

2022-08-06 14:44:19 2110

原创 python多进程与多线程使用

关于多进程和多线程的详细介绍参考其他资料,这里仅列出一些显著特征,用于帮助实际使用时选择哪种方法。

2022-07-30 14:59:43 269

原创 画图和可视化工具,无需代码

工作中经常需要通过图表来进行展示和表达,找到合适的画图工具是所有打工人的刚需。对于程序猿,数不胜数的各种包和库让人眼花缭乱。但是对于不会编程的广大社畜来说,精通excel似乎是仅有的选择。以下提供一些画图工具,既有无需代码也能画图的工具,也有高度灵活的代码方案,以及两者结合的方法,供选择使用。在画图之前的第一个问题是我有一堆数据,但是不知道该选用何种类型的图形才能更准确地展示数据背后所表达的含义。此时,可通过一些图表库,先了解有哪些类型的图形展示,然后选择最符合数据关系的一种。......

2022-07-23 09:39:54 494

原创 singularity使用简介

singularity与docker功能相似,但是相比与docker需要root权限,或者专门添加用户组,singularity在非root时也可使用,且轻量级,修改方便。

2022-07-13 21:40:26 2177

原创 R源码编译安装

R源码编译安装前言安装包下载依赖包下载安装编译R总结前言一般尽可能的使用编译好的R,或者使用miniconda安装R。 但是使用conda安装一些R包时会遇到各种各样的错误,同时如果需要使用更高版本的R,源码编译则是最好选择。安装过程中不断出现的报错让人头疼,这里简要记录安装遇到的报错及解决,有参考网上其他教程,一并谢过。 常见过程一笔带过。安装包下载环境:CentOS release 6...

2019-09-25 11:24:21 2598 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除