- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 Django常用配置
MySQL数据库DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': '数据库名字', 'PORT': 3306, 'HOST': '数据库IP地址', 'USER': '数据库用户名', 'PAS...
2018-10-31 12:53:36 172
原创 scikit-learn LogisticRegression原理及实例
Attibutescoef_ : 变量中的系数。shape (1, n_features) or (n_classes, n_features)intercept_ :截距。shape (1,) or (n_classes,)n_iter_ :所有类的实际迭代次数。shape (n_classes,) or (1, )Methodsdecision_function(X):预测样...
2018-10-20 11:23:35 4317
原创 scikit-learn fetch_olivetti_faces人脸识别实例
分别使用线性回归,岭回归,KNN,以及ExtraTrees回归进行分析from sklearn.linear_model import LinearRegression,Ridgefrom sklearn.neighbors import KNeighborsRegressorfrom sklearn.ensemble import ExtraTreesRegressorimport sk...
2018-10-19 21:30:21 5379 2
原创 scikit-learn 线性回归 原理与使用
一、 普通线性回归数学依据:最小二乘法(y - w*x)^2 y^2 - 2*w*x*y + x^2*w^2-2xy + 2x^2*w = 0-y + wx = 0xw = yxTxw = xTy # 两边乘以xT 转置矩阵w = (xTx)^-1(xTy) # 平方和最小的情况:w在求导时为0 Attibutescoef_ : 变量中的系数。sh...
2018-10-19 20:27:55 589
原创 scikit-learn K-近邻算法(KNN)
k-近邻算法原理:采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定。 缺点:时间复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的 特征进行比较,...
2018-10-17 18:18:56 6098
原创 python Panads
Panads是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的,其纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,Panads的数据类型包含Series、DataFrame和Panel.本文主要介绍Series和DataFrame类型的基本使用方法。import numpy as npimport pandas as pdfrom pandas ...
2018-10-14 18:14:32 558
原创 Scrapy运行流程
Scrapy组件:* 引擎【Engine】:处理整个系统的数据流处理 触发事务* 调度器【Scheduler】:接收Engine发来的请求并压入队列,在请求时执行出队* 下载器【Downloader】:通过Engine拿到调度器出队的URL执行下载操作,并将response返回给Spiders* 爬虫【Spiders】:从Downloader返回的response中提取item,即实体(...
2018-10-12 21:42:44 947
原创 python NumPy
NumPy中数据类型包含array(数组)、matrix(矩阵)和character(字符串数组)。array类旨在成为用于多种数值计算的通用n维数组,matrix类则专门用于促进线性代数计算,而chararray类的存在是为了向后兼容Numarray(不建议用于新开发)。本文主要介绍array类及其子类matrix的基本使用方法。#导入numpy库import numpy as np...
2018-10-11 20:00:29 290
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人