- 博客(2)
- 资源 (3)
- 收藏
- 关注
原创 基于sklearn同时处理连续特征和离散特征
核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大# coding=utf-8# @author: bryanfrom skle...
2018-04-12 12:10:42 7439 2
原创 python计算稀疏表示的TF-IDF
使用sklean的计算方法,这种结果是稠密矩阵,如果数据集太大,计算结果将会占满内存,或者直接报MemeryError的错误。tfidf详细计算参考:https://blog.csdn.net/Eastmount/article/details/50323063import jieba import jieba.posseg as pseg import os import ...
2018-04-02 20:47:20 4136 4
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人