2018年04月_Bryan__

12月 10月 09月 06月 04月 03月

原创基于sklearn同时处理连续特征和离散特征

核心思路：先用LabelEncoder对离散特征编码，因为onehotencoder只能处理数值然后使用OneHotEncoder编码，生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢，因为这样是直接生成的稠密矩阵，内存开销太大# coding=utf-8# @author: bryanfrom skle...

2018-04-12 12:10:42 7439 2

原创 python计算稀疏表示的TF-IDF

使用sklean的计算方法，这种结果是稠密矩阵，如果数据集太大，计算结果将会占满内存，或者直接报MemeryError的错误。tfidf详细计算参考：https://blog.csdn.net/Eastmount/article/details/50323063import jieba import jieba.posseg as pseg import os import ...

2018-04-02 20:47:20 4136 4

机器学习/数据挖掘岗面试准备

参加各大公司面试时准备的复习资料，已经拿到百度，腾讯，华为offer

2016-09-26

9个大数据竞赛方案分享，其中6次获得top10

对参加过的9个大数据竞赛一个浓缩的解决方案总结其中9个比赛6次获得top10

2016-06-15

数据挖掘比赛经验

之前应老师要求，跟学弟学妹们吹了下牛。只准备了一天，水平有限，看看就好

2016-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人