python
Clark_Xu
重新出发,拥抱变化
展开
-
python将大csv文件划分成小csv文件做训练集和测试集
在kaggle比赛中,遇到一个问题,训练集有好几G,为了方便训练和验证,减少运行时间,我把训练集(一个大的csv文件)划分为小的同样格式的训练的csv文件和一个测试的csv文件及对应label文件。表头:1.训练集:['qid', 'question_text','target'] 2.测试集:['qid', 'question_text'] 和对用标签文件labe...原创 2019-01-28 22:50:03 · 11481 阅读 · 2 评论 -
python之正则表达式大全
nlp任务中,正则表达式是一个很好的工具。推荐资源:https://github.com/ziishaned/learn-regex/https://regex101.com/ 在线练习 结合网上的教程,我的整理如下: 先来举个例子:# 解析网页 HTML <html><body><h1>hello world&...原创 2019-06-12 15:04:23 · 16179 阅读 · 0 评论 -
sklearn下对于二分类和多类分类问题的评估方法总结
目录二分类:多分类:一、什么是多类分类?二、如何处理多类分类?三、代码实践:评估指标:混淆矩阵,accuracy,precision,f1-score,AUC,ROC,P-R(不能用)1.混淆矩阵:2. accuracy,precision,reacall,f1-score:3. ROC图和AUC值:4 . 多类分类问题不能用P-R曲线5.其他评...原创 2019-08-16 17:10:15 · 19658 阅读 · 6 评论