机器学习
文章平均质量分 77
每天进步一点点2017
这个作者很懒,什么都没留下…
展开
-
《Python数据挖掘入门与实战》第四章电影推荐案例
import pandas as pd#1000名用户和1700部电影all_ratings = pd.read_csv('u.data',delimiter='\t',header=None,names = ['UserID','MovieID','Rating','Datetime'])all_ratings['Datetime'] = pd.to_datetime(all_rating原创 2017-05-15 23:18:23 · 2106 阅读 · 2 评论 -
sklearn.linear_model.LinearRegression
最小二乘法线性回归:sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False,copy_X=True, n_jobs=1)主要参数说明:fit_intercept:布尔型,默认为True,若参数值为True时,代表训练模型需要加一个截距项;若参数为False时,代表模型无需加截距项。norma翻译 2017-07-07 22:19:49 · 30389 阅读 · 2 评论 -
[ML with Sklearn]特征提取与处理
①分类变量特征提取分类变量通常用独热编码(One-of-K or One-Hot Encoding),通过二进制来表示每个自变量特征。例如,假设city变量有三个值:New York, San Francisco, Chapel Hill。独热编码方式就是用三位二进制数表示city特征,其中每一位代表一个城市。利用sklearn.feature_extraction.DictVec原创 2017-06-28 08:50:55 · 1122 阅读 · 0 评论 -
sklearn.model_selection.train_test_split
数据集划分:sklearn.model_selection.train_test_split(*arrays, **options)主要参数说明:*arrays:可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框test_size:可以为浮点、整数或None,默认为None①若为浮点时,表示测试集占总样本的百分比②若为整数时,表示测试样本样本数③若翻译 2017-07-08 16:32:47 · 27816 阅读 · 2 评论