自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Bryan__的专栏

https://github.com/YouChouNoBB

  • 博客(2)
  • 资源 (3)
  • 收藏
  • 关注

原创 基于sklearn同时处理连续特征和离散特征

核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大# coding=utf-8# @author: bryanfrom skle...

2018-04-12 12:10:42 7439 2

原创 python计算稀疏表示的TF-IDF

使用sklean的计算方法,这种结果是稠密矩阵,如果数据集太大,计算结果将会占满内存,或者直接报MemeryError的错误。tfidf详细计算参考:https://blog.csdn.net/Eastmount/article/details/50323063import jieba import jieba.posseg as pseg import os import ...

2018-04-02 20:47:20 4133 4

机器学习/数据挖掘岗面试准备

参加各大公司面试时准备的复习资料,已经拿到百度,腾讯,华为offer

2016-09-26

9个大数据竞赛方案分享,其中6次获得top10

对参加过的9个大数据竞赛一个浓缩的解决方案总结 其中9个比赛6次获得top10

2016-06-15

数据挖掘比赛经验

之前应老师要求,跟学弟学妹们吹了下牛。只准备了一天,水平有限,看看就好

2016-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除