2020年07月_侠客儿青争ing

10月 09月 08月 07月 05月 04月 03月 02月 01月

原创文本分类ML

import pandas as pdimport osos.chdir(r'C:\Users\lujing\Desktop\NLP两周实践')train=pd.read_csv('train_set.csv',sep='\t')train.shape(200000, 2)train.head(10) label text 0 2 2967 6758 339 202

2020-07-24 22:26:49 788

CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, ma

2020-07-23 15:25:33 4896 1

原创 NLP_代码表示文本向量

第一种表示方式 Count 次数from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document . ', 'this document is the second document.', 'the last one']vectorizer = CountVectorizer()vectorizer.fit_transform(corpus)

2020-07-23 15:12:23 252

原创 ML_7项目实践

预测模型项目模板—可以分为分类与回归理解数据的时候数据可视化的时候多问几个问题准备3~5个准确度足够的算法优化-调参找最好模型序列化 ---- 是同一个模型然后有新数据的时候继续以此训练大致总结技巧快速执行一遍某些流程要循环尝试每一个步骤–：在模板的每一个步骤尝试做点什么，虽然直接可能不能提高准确度啥的但是蝴蝶效应，可能之后的步骤便会因此曲折...

2020-07-22 16:29:54 83

原创文本分类_打卡2_数据分析

import pandas as pdimport osos.chdir(r'C:\Users\lujing\Desktop\NLP两周实践')train=pd.read_csv('train_set.csv',sep='\t')train.shape(200000, 2)train.head(10) label text 0 2 2967 6758 339 202

2020-07-22 16:14:39 144

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_33837905的博客

原创文本分类ML

原创 CountVectorizer()参数详解

原创 NLP_代码表示文本向量

原创 ML_7项目实践

原创文本分类_打卡2_数据分析

空空如也

空空如也

原创 文本分类ML

原创 CountVectorizer()参数详解

原创 NLP_代码表示文本向量

原创 ML_7项目实践

原创 文本分类_打卡2_数据分析

空空如也

空空如也

原创文本分类ML

原创文本分类_打卡2_数据分析