- 博客(5)
- 收藏
- 关注
原创 文本分类ML
import pandas as pdimport osos.chdir(r'C:\Users\lujing\Desktop\NLP两周实践')train=pd.read_csv('train_set.csv',sep='\t')train.shape(200000, 2)train.head(10) label text 0 2 2967 6758 339 202
2020-07-24 22:26:49 788
原创 CountVectorizer()参数详解
CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, ma
2020-07-23 15:25:33 4896 1
原创 NLP_代码表示文本向量
第一种表示方式 Count 次数from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document . ', 'this document is the second document.', 'the last one']vectorizer = CountVectorizer()vectorizer.fit_transform(corpus)
2020-07-23 15:12:23 252
原创 ML_7项目实践
预测模型项目模板—可以分为 分类 与 回归理解数据的时候 数据可视化的时候 多问几个问题准备3~5个准确度足够的算法优化-调参 找最好模型序列化 ---- 是 同一个模型然后 有新数据的时候继续以此训练大致总结技巧快速执行一遍某些流程要循环尝试每一个步骤–: 在模板的每一个步骤尝试做点什么,虽然直接可能不能提高准确度啥的 但是蝴蝶效应,可能之后的步骤便会因此 曲折...
2020-07-22 16:29:54 83
原创 文本分类_打卡2_数据分析
import pandas as pdimport osos.chdir(r'C:\Users\lujing\Desktop\NLP两周实践')train=pd.read_csv('train_set.csv',sep='\t')train.shape(200000, 2)train.head(10) label text 0 2 2967 6758 339 202
2020-07-22 16:14:39 144
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人