机器学习
JR_lu
这个作者很懒,什么都没留下…
展开
-
机器学习(一)概率论基础
**1. 期望** 定义: 期望有两种形式,离散型: 和连续型: 期望的意思就是概率加权下的“平均值”。性质: 补充一点: 随机事件是随机变量取某一特定值时的情况,有两个重要性质: 独立性: 互斥性: 2.方差定义: n个样本的分布规律偏离于平均值的程度 性质: 3.协方差定义: 性质: 协方差矩阵: ——–怎样评价多个特征属性之间的相关关系呢?原创 2016-10-24 11:11:51 · 857 阅读 · 1 评论 -
用机器学习对CTR预估建模(一)
题目网址:https://www.kaggle.com/c/avazu-ctr-prediction数据集介绍:train - Training set. 10 days of click-through data, ordered chronologically. Non-clicks and clicks are subsampled according to different strat原创 2017-02-02 18:04:15 · 9772 阅读 · 9 评论 -
机器学习(十二)决策树
直接上链接http://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html转载 2016-11-02 10:26:21 · 509 阅读 · 0 评论 -
机器学习(十一)使用sklearn对kaggle的Titanic进行建模
转自寒老师的七月算法ML课程 数据集下载地址:https://www.kaggle.com/c/titanic# -*- coding: utf-8 -*-"""Created on Tue Nov 01 09:04:12 2016@author: Siriuskaggle上的Titanic经典案例,建立一个模型,预测乘客是否获救,二分类问题记:寒老师七月算法ML课程课后笔记"""impo转载 2016-11-01 16:21:11 · 1809 阅读 · 1 评论 -
机器学习(十)使用sklearn库对时间特征进行处理
转自寒老师的七月算法ML课程,加了一点自己理解# -*- coding: utf-8 -*-"""Created on Mon Oct 31 20:27:11 2016@author: Sirius特征工程之时间型特征处理"""import pandas as pddata=pd.read_csv('kaggle_bike_competition_train.csv',转载 2016-10-31 22:10:55 · 15426 阅读 · 0 评论 -
机器学习(八)使用sklearn库进行数据分析_——特征处理之过滤、包裹、嵌入型
# -*- coding: utf-8 -*-"""Created on Thu Oct 27 10:53:56 2016@author: siriusfeature chioce""""""---------------------特征处理之--过滤型-----------------------------------评估单个特征和结果值之间的相关程度,排序留下TOP相关的特征部分"原创 2016-10-27 16:57:03 · 1488 阅读 · 0 评论 -
机器学习(九)使用sklearn库进行数据分析_——文本特征处理
# -*- coding: utf-8 -*-"""Created on Wed Oct 26 21:35:31 2016@author: siriustest word2word"""from sklearn.feature_extraction.text import CountVectorizerimport numpy as npvectorizer=CountVectoriz原创 2016-10-27 17:00:00 · 1242 阅读 · 0 评论 -
机器学习(七)使用pandas库进行数据分析_——统计信息和离散化
在特征工程中,对于数值型数据(比如年龄为25岁、31岁。。,商店某个时间段的销量为20W件等等),通常要对这些数值型数据进行统计分析,比如求取它们的最大最小值、期望方差等,pandas库在数据分析中非常好用。 对 数值型数据进行离散化,也用到pandas的cut函数,具体操作如下代码:# -*- coding: utf-8 -*-"""Created on Wed Oct 2原创 2016-10-26 16:30:57 · 2576 阅读 · 0 评论 -
机器学习(五)使用sklearn库的cross validation
# -*- coding: utf-8 -*-"""Created on Tue Oct 25 20:10:51 2016@author: SIriustest sklearn"""import numpy as npfrom sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom原创 2016-10-26 10:06:05 · 1395 阅读 · 0 评论 -
机器学习(六)使用sklearn库的model存储
# -*- coding: utf-8 -*-"""Created on Tue Oct 25 21:39:04 2016@author: Administratormodel说明,normalization"""from sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom sk原创 2016-10-26 10:43:14 · 2834 阅读 · 0 评论 -
机器学习(四)使用sklearn库的练习normalization和model的一些参数
“`-- coding: utf-8 --“”” Created on Tue Oct 25 21:39:04 2016@author: Administrator model说明,normalization “”” import numpy as np from sklearn import datasets from sklearn.cross_validation import t原创 2016-10-25 22:09:03 · 1421 阅读 · 0 评论 -
机器学习(三)使用sklearn库的datasets练习LinearRegression
# -*- coding: utf-8 -*-"""Created on Tue Oct 25 20:42:24 2016@author:SiriusLinearRegression"""from sklearn import datasetsfrom sklearn.linear_model import LinearRegressionfrom sklearn.cross_valid原创 2016-10-25 21:00:50 · 1162 阅读 · 0 评论 -
机器学习(二)使用sklearn库的datasets练习KNN分类
# -*- coding: utf-8 -*-"""Created on Tue Oct 25 20:10:51 2016@author: SIriustest sklearn"""import numpy as npfrom sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom原创 2016-10-25 20:38:16 · 1320 阅读 · 0 评论 -
机器学习在电能需求预测中的应用
问题:电力公司会提前一天或者几天跟发电厂购买电量,买多了势必会造成不必要的浪费,而买少了临时向发电厂买电代价是比平时高得多的,如何根据以往的数据对未来的电量需求做出精准的预测,是电力公司非常重视的一个问题。解决方案:通过历年来该地区的实际电量需求数据和该地区的天气数据进行建模,建立一个回归模型,预测未来几天的用电需求。数据来源:美国纽约州电力NYISO公司公布了历年来纽约州各个地区的实际用电数据,该原创 2017-04-07 14:56:35 · 6324 阅读 · 7 评论