特征工程（四）HashingVectorizer

最新推荐文章于 2022-04-04 15:59:27 发布

Datawhale

最新推荐文章于 2022-04-04 15:59:27 发布

阅读量3.1k

点赞数 1

分类专栏：达观杯nlp算法比赛总结

本文链接：https://blog.csdn.net/Datawhale/article/details/82824179

版权

'''
将原始数据的word特征数字化为hash特征，并将结果保存到本地

article特征可做类似处理

'''
import pandas as pd
from sklearn.feature_extraction.text import HashingVectorizer
import pickle
import time

t_start = time.time()

"""=====================================================================================================================
1 加载原始数据
"""
# 读取原始数据train和test文件
df_train=pd.read_csv('train_set.csv')
df_test=pd.read_csv('test_set.csv')

# 删除特征article