第一章 Snorkel环境搭建
在自然语言处理领域,数据标注是一项非常耗费时间与精力的事情。在此背景下,Snorkel应运而生,它可以让我们低成本的利用领域专家的知识来程序化的标注上百万级别的 数据样本,从而帮助我们解决人工智能时代的数据瓶颈问题。
根据官网推荐,Snorkel的Python环境为3.6/3.7,如果环境版本过高,会导致安装过程中出现很多包冲突,进而导致安装无法进行。如果不想抛弃自己原有的Python环境而又想安装使用Snorkel,可以通过Anaconda创建一个Python3.6的环境,在其中安装运行Snorkel。详细操作如下。
1.1 创建新环境
- 打开Anaconda Prompt(anaconda3),输入
python --version
查看当前环境的Python版本为3.8
,版本过高,下一步需要创建低版本的Python环境; - 输入
conda info -e
,查看电脑有那些环境,base
表示电脑本地环境,Snorkel
是我已经搭建好的环境(按第三步操作,你也会有一个类似的环境);(由于我已经搭建好,接下来的内容不会在图片中显示) - 输入
conda create -n Snorkel python=3.6
创建一个python 3.6的环境; - 输入
activate Snorkel
,进入上一步创建好的Snorkel环境; - 输入
conda install snorkel -c conda-forge
,安装snorkel。(这里偶尔有坑)
图1.创建环境
1.2 完善环境
此时环境已安装好,但不代表可以在该环境下可以进行Snorkel的文本标注工作,可能还缺某些包或者有些包还需要更新,接下来会按照官网教程运行一些简单的例子,检查自己的环境真的可以得到应用。
查看安装的Snorkel版本,输入conda list snorkel
。根据实验,Snorkel版本为0.9.7时,后续安装会比较顺利。如果版本不是0.9.7,则将原先安装的Snorkel删除conda uninstall snorkel
,然后再执行conda install snorkel==0.9.7 -c conda-forge
。
安装了正确的Snorkel后,就可以安装官网教程来运行一些小例子了,建议运行这个 Snorkel Intro Tutorial: Data Labeling,在运行这个例子的过程中,可能要安装textblob(版本0.15.3),tensorflow(版本1.2.1)等包,如果某个包用conda install 包名
安装不了就用pip install 包名
来安装,预祝各位安装学习顺利。