自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 模型优化融合

调参 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sklearn...

2019-04-15 23:08:42 246

原创 lgb

实践 在这里插入import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sk...

2019-04-13 15:53:34 1529

原创 LR+SVM

在这import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sklearn ...

2019-04-11 20:54:53 124

原创 【数据竞赛】“达观杯”文本智能处理挑战赛3

一、Word2vec原理 (连续词袋模型) CBOW SKip-Gram模型 二、word2vec词向量实践 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer import ge...

2019-04-09 18:35:37 1043

原创 【数据竞赛】“达观杯”文本智能处理挑战赛2

一.原理 TF-IDF(term frequency=inverse document frequency)是⼀种⽤于资讯检索与文本挖掘的常⽤加权技术。TF-IDF是⼀种统计方法,⽤以评估⼀字词对于⼀个文件集或⼀个语料库中的其中⼀份⽂件的重要程度。字词的重要性随着它在⽂件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常备搜索引擎应⽤,作为文件与用户...

2019-04-07 12:52:08 189

原创 【数据竞赛】“达观杯”文本智能处理挑战赛1

一 读取数据 import pandas as pd from sklearn.model_selection import train_test_split # 读取数据 df_train = pd.read_csv('./new_data/train_set.csv',index_col='id') test_data = pd.read_csv('./new_data/test_set.c...

2019-04-05 17:16:09 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除