记录文本相似度计算中fuzzywuzzy,simhash的安装使用。。。
安装流程
- 有git的情况
git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy
cd fuzzywuzzy
python setup.py install - 无git的情况
下载zip包解压
命令行进入文件夹下install
重启pyCharm
使用方法
#导入模块
from fuzzywuzzy import fuzz
#选取数据中的question1和question2
df_data=df_train[['question1','question2']]
#分别对每一行的question1和question2计算fuzz的结果
df_fuzz['fuzz_qratio'] = df_data.apply(lambda row: fuzz.QRatio(str