python小技巧
文章平均质量分 69
blmoistawinde
上海西南某高校学森一枚,数据玩家,喜欢有趣有意义的数据挖掘分析。目前兴趣方向在NLP,社交网络分析和知识图谱等。
向往风一般自由,希望拂过之处给世界带来些清新与滋润~
邮箱:blmoistawinde@qq.com
Github:https://github.com/blmoistawinde
展开
-
如何搜索同时引用了两篇特定文章的论文?
在科研中,有时看到两个研究类似问题的工作,会希望看看是否有后续工作对二者进行了比较和评价。比如,我听说XLNet和RoBERTa是两个很牛的预训练模型,但不知道他们孰强孰弱。那我们就想找找同时引用了它们的论文,看看别人是怎么评价比较他们的?然而,Google Scholar这类的流行的搜索引擎并不直接提供找到同时引用了两篇特定文章A,B的论文,这样的搜索功能,那么我们怎么实现这一点呢?在StackExchange的讨论中,高赞回答提供的解决方案是,从A的引文中,再搜索B的标题,然后看看得到的结果。因为一般原创 2021-06-22 20:57:16 · 1427 阅读 · 1 评论 -
tensorflow/pytorch临时指定CUDA版本,解决版本适配问题
经典的深度学习引擎,如tensorflow和pytorch,其自身版本与CUDA版本有着严格的对应关系,一点点的不符都会使得程序无法运行。例如,我目前的默认CUDA==10.2,现在需要跑tensorflow-gpu==1.13.1的代码(要求CUDA==10.0),就会报出这样的错误:ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory由于复现实验时,原始代码的tensor原创 2020-06-20 17:54:01 · 2795 阅读 · 0 评论 -
python文字转图片(二值、RGB)以及numpy数组
文字一般使用unicode等编码的形式在计算机中表示,但是其形态本身也很有价值。如果能够把文字转为图片,就可以做一些应用,比如:基于最近邻查找来实现简单的OCR文字识别从像素中提取特征用于机器学习,如Glyce其他的各种脑洞,比如计算字符所占像素数/长/宽之类的其实现的思路不是那么直截了当,但是想通了就不困难了,就是在画布上画一个字。说到画图,肯定要想到python中的PIL/Pill...原创 2020-05-03 17:43:09 · 2467 阅读 · 1 评论 -
Python正则表达式清洗微博文本特殊符号(网址, @, 表情符等)
在做文本分类的实验时,找到一个微博的情感分析语料,但是其中保留了很多微博中的特殊符号,对于算法的训练来说不太有利。从上面的图中可以看到,微博里主要有几种特殊格式:网页@用户名(包括转发路径上的其他用户名)表情符号(用[]包围)话题(用#包围)作为机器学习的预处理步骤,我希望能够处理掉前3个格式,原因是:1、2不包含有意义的内容(不过我去除转发用户名的时候保留了其内容)3 实...原创 2019-12-21 20:54:24 · 14989 阅读 · 14 评论 -
VS Code jupyter报错Error starting original kernel: python -m jupyter notebook --version is not running
用VS运行jupyter时报错如下Jupyter kernel cannot be started from 'Python 3.6.9 64-bit ('py36': conda)'. Using closest match Python 3.7.4 64-bit instead.Error starting original kernel: python -m jupyter notebo...原创 2019-11-15 15:47:34 · 2207 阅读 · 0 评论 -
从根本解决python3 open的UnicodeDecodeError: 'gbk' codec问题
解决方案先直截了当给出解决方案,在程序开头加上:import _locale_locale._getdefaultlocale = (lambda *args: ['zh_CN', 'utf8'])分析在Windows下经常用python open函数的人相信都遇到过UnicodeDecodeError: ‘gbk’ codec…这种编码问题。而且很多有经验的人应该知道解决方法是加上参...原创 2019-02-19 16:37:21 · 11789 阅读 · 10 评论 -
jupyter notebook黑科技——制作PPT式的演示文稿
看到[译]27 个Jupyter Notebook的小提示与技巧一文以后,顿感开启了新世界的大门,发现了原来Jupyter notebook中有这么多黑科技!本文就要分享其中的一个很酷的小技巧——制作演示文稿。原文中只有简单提及,我将比较仔细地介绍其用法。首先来体验一下它的效果,我为我的一篇博客更少标注的机器学习方法——主动学习(python示例)创建的实例:这个库叫RISE,能够把我们的...原创 2018-12-14 21:10:27 · 13600 阅读 · 4 评论 -
更少标注的机器学习方法——主动学习(python示例)
准备工作假设我们正要完成手写数字识别的任务。我们可以使用著名的mnist数据集来训练这样的机器学习模型。数字示例如下:总共有1797个数字,每个数字使用一个64维的向量表示效果检验先来看看使用完全数据集训练的模型能够达到什么样的效果(这里暂不区分训练测试集)from sklearn.linear_model import LogisticRegressionclf = Logisti...原创 2018-12-13 20:57:15 · 8877 阅读 · 1 评论 -
用python解析pdf中的文本与表格【pdfplumber的安装与使用】
我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等。pdf格式使得用机器从中提取信息格外困难。为了解决这个问题,我找到了几种解决方案,最后选择了python上的pdfplumber库,安装和使用都相对比较方便,效果也还不错,所以下面介绍这个库的安装与使用。安装我的电脑配置环境: Win10+python3.6 和许多库一样,其基本安装只需要pi...原创 2018-08-25 15:28:06 · 31390 阅读 · 13 评论 -
用python进行精细中文分句(基于正则表达式)
中文分句,乍一看是一个挺简单的工作,一般我们只要找到一个【。!?】这类的典型断句符断开就可以了吗。 然而当我处理小说文本时,发现了这种思路的漏洞。故用正则表达式精细解决之。原创 2018-09-04 10:23:00 · 33711 阅读 · 25 评论 -
python用re.sub实现分组匹配和替换(及问答系统中的应用)
关于正则表达式替换,前面我写过一个应用: python2代码搬运到python3要改很多print? 试试用pyCharm的正则表达式替换 其实这里的替换已经使用了分组的思想。 上面一行的匹配模式print (\S*)中,括号括起的部分匹配到的内...原创 2018-08-19 17:23:14 · 21516 阅读 · 3 评论 -
python2代码搬运到python3要改很多print? 试试用pyCharm的正则表达式替换
在把以前的一些python2的代码搬运到python3时,最麻烦的一些修改莫过于就是要把以前的print x类的语句全部改成函数式的print(x)的形式。想用replace来解决问题,好像又没办法解决右边的括号问题。直到我发现了pycharm的正则表达式替换工具,这个问题一下就迎刃而解了!下面说明用法: 在replace面板,勾选右边的regex选项,这样find和replace都...原创 2018-06-29 21:14:08 · 6488 阅读 · 1 评论