自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 文本分类ML

import pandas as pdimport osos.chdir(r'C:\Users\lujing\Desktop\NLP两周实践')train=pd.read_csv('train_set.csv',sep='\t')train.shape(200000, 2)train.head(10) label text 0 2 2967 6758 339 202

2020-07-24 22:26:49 788

原创 CountVectorizer()参数详解

CountVectorizer(input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern='(?u)\b\w\w+\b', ngram_range=(1, 1), analyzer='word', max_df=1.0, min_df=1, ma

2020-07-23 15:25:33 4896 1

原创 NLP_代码表示文本向量

第一种表示方式 Count 次数from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document . ', 'this document is the second document.', 'the last one']vectorizer = CountVectorizer()vectorizer.fit_transform(corpus)

2020-07-23 15:12:23 252

原创 ML_7项目实践

预测模型项目模板—可以分为 分类 与 回归理解数据的时候 数据可视化的时候 多问几个问题准备3~5个准确度足够的算法优化-调参 找最好模型序列化 ---- 是 同一个模型然后 有新数据的时候继续以此训练大致总结技巧快速执行一遍某些流程要循环尝试每一个步骤–: 在模板的每一个步骤尝试做点什么,虽然直接可能不能提高准确度啥的 但是蝴蝶效应,可能之后的步骤便会因此 曲折...

2020-07-22 16:29:54 83

原创 文本分类_打卡2_数据分析

import pandas as pdimport osos.chdir(r'C:\Users\lujing\Desktop\NLP两周实践')train=pd.read_csv('train_set.csv',sep='\t')train.shape(200000, 2)train.head(10) label text 0 2 2967 6758 339 202

2020-07-22 16:14:39 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除