自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (2)
  • 收藏
  • 关注

原创 机器学习——集成学习基础

文章目录一、集成学习介绍二、随机森林(Random Forest)1、Bagging2、随机森林3、sklearn实现RF分类三、提升方法(Boosting)1、AdaBoost(Adaptive boosting)2、GBDT(Gradient Boost Decision Tree)一、集成学习介绍在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这

2021-11-14 10:30:25 374

原创 数据挖掘——MySQL基础

MySQL基础一、MySQL入门1、进入mysql2、显示数据库3、选择数据库4、查看可用表5、查看表的列二、检索数据1、检索列2、检索不同的行3、限制结果三、排序数据四、过滤数据一、MySQL入门1、进入mysql mysql -uroot -p2、显示数据库mysql> show databases;+--------------------+| Database |+--------------------+| information_schema ||

2021-01-16 00:27:04 590

原创 python数据可视化——matpiotlib、pandas、seaborn

一、饼图二、条形图三、直方图与核密度曲线四、箱线图五、小提琴图六、折线图七、散点图八、气泡图九、热力图

2020-12-20 11:30:49 476

原创 熵值法python实现

在信息论中,熵是对不确定性的一种度量。不确定性越大,熵就越大,包含的信息量越大;不确定性越小,熵就越小,包含的信息量就越小。根据熵的特性,可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大。比如样本数据在某指标下取值都相等,则该指标对总体评价的影响为0,权值为0.熵权法是一种客观赋权法,因为它仅依赖于数据本身的离散性。但其实通过熵值法确定权重并不是特别合理。熵值法python实现:# -*- coding:u

2020-05-16 22:57:07 3945

原创 matplotlib图例中文乱码

matplotlib图例中文乱码解决方案(目前看到最好的一个):链接

2020-05-13 00:49:46 183

原创 机器学习——常用性能指标及sklearn中的模型评估

机器学习专栏:机器学习专栏模型评估一、回归指标二、分类指标导入方式:sklearn.metricsfrom sklearn.metrics import mean_squared_errorfrom sklearn.metrics import r2_score一、回归指标回归方差(反应自变量与因变量之间的相关程度)explained_variance_score(y_true...

2020-04-15 11:10:49 556

原创 Maximum Subsequence Sum (25)-PAT甲级真题(最大连续子序列和、动态规划dp)

#include <stdio.h>#include <malloc.h>int main(){ int n;//数组的长度 scanf("%d", &n); int *List;//定义数组 List = (int*)malloc(n * sizeof(int)); ## ***int

2020-04-14 11:30:02 242

原创 C语言之递归算法

递归算法的核心就是对自身的不断调用,但是必须要有递归出口1、计算阶乘int factorial(int n){ if(n == 1) return 1;//这里就是的递归的出口 else return n * factorial(n - 1);}2、汉罗塔问题void Hanoi (int n, char A, char B, char C...

2020-04-14 11:28:41 565

原创 C语言之字符指针(二维数组)

输入一个学生姓名,在含有4个学生的名单中查找该学生是否存在,并输出查找结论;#include <stdio.h>#include <string.h>int main(){ char *name[4]={"Tom","Smith","Ellen

2020-04-14 11:27:10 2553

原创 分而治之——最大子列和

分而治之简而言之就是先分再治理(合并):1、从头开始分(在线处理)每输入一个变量就对变量进行处理(可以理解为对n个数不断分为1和后面的所有项),对分出来的那一个变量在线处理(治);2、从中间开始分if (left == right) { /* 递归的终止条件,子列只有1个数字 */ if (A[left] > 0) return A[left]; else return ...

2020-04-14 11:23:49 632

原创 pandas——微博数据分析

数据介绍:Use of this dataset in publications must be acknowledged by referencing the following publication:King-wa Fu, CH Chan, Michael Chau. Assessing Censorship on Microblogs in China: Discriminatory...

2020-04-14 11:22:07 320

原创 膜拜共享单车数据分析

数据:2017年5月两周内,北京40余万辆摩拜单车被30余万摩拜用户的使用情况(该开源数据来源于2017年摩拜算法挑战赛)。数据包含300余万条出行记录数据,每条的数据包含了订单号(orderid )、用户编号(userid )、单车编号(bikeid)、单车类(biketype)、开始使用单车时间(starttime)、使用起点坐标(startloc)和使用终点坐标(endloc),其中起点和终...

2020-04-14 11:21:39 2172

原创 2017年全国大学生数学建模B题数据处理

2017年全国大学生数学建模B题数据处理# -*- coding: utf-8 -*-"""Created on Fri Oct 18 20:17:00 2019@author: 1"""import pandas as pdimport matplotlib.pyplot as pltimport smopy#读取数据df=pd.read_excel('附件一:已...

2020-04-14 11:21:18 4117 1

原创 爬虫实战——爬取杭电就业信息网招聘信息

杭电宣讲会信息爬取爬取内容: 宣讲单位,宣讲时间,所在学校,宣讲地点,单位简介等项目需求实现两层网页的信息爬取,并将爬取的信息进行整合保存到 excel 文件中。(1) 基础:爬取一个外层页中,所有内层页的信息(2) 进阶:爬取多个外层页中, 所有内层页的信息每个题目中, 至少爬取上述给定爬取内容中的五项。自学数据可视化方法,将爬取结果以曲线图、 柱状图等方式显示。自学 scra...

2020-04-14 11:19:44 1626 5

原创 DataFrame的groupby合并数据

现有数据如下格式:我们需要根据日期统计日点击量,画出日点击量图# -*- coding: utf-8 -*-"""Created on Thu Nov 7 18:39:18 2019@author: 1"""import pandas as pdfrom matplotlib import pyplot as pltdf=pd.read_excel('test.xls'...

2020-04-14 11:18:15 2339

原创 机器学习——sklearn实现半监督学习

前言:简单介绍半监督学习,无公式推导,并用sklearn实现机器学习专栏:机器学习专栏文章目录一、算法思路1、生成模型2、物以类聚(label propagation)二、标签传播算法的两种计算方式1. RBF2. KNN三、sklearn实现LP算法一、算法思路1、生成模型先计算样本特征的总体的联合分布,将所有有标注的样本计算出一个分布,然后把没有标注的样本放入这个分布中,看根据这个...

2020-04-13 23:54:29 2730 1

原创 DataFrame按行/列遍历并按条件修改

1、按行遍历iterrows():包含索引和每一行元素In[25]: dfOut[25]: a b c d0 1 2 4 01 20 10 14 02 20 10 14 0In[26]: for index, row in df.iterrows(): ...: if row['a'] > 1: ...: ...

2020-03-26 01:06:42 10710 1

原创 python读取matlab的mat文件

python读取mat文件主要是通过scipy.io模块import scipy.io import numpy as np# python 读取mat文件signal = scipy.io.loadmat('Python basics/Dat_2.mat')查看一下signal的类型:字典In[7]: type(signal)Out[7]: dict查看signal[‘...

2020-03-23 20:01:31 279

原创 机器学习——主成分分析及sklearn实现

前言:数学知识太复杂,似懂非懂机器学习专栏:机器学习专栏主成分分析一、主成分分析原理二、最近重构性和最大可分性1、最近重构性2、最大可分性三、sklearn实现PCA一、主成分分析原理主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息,在...

2019-12-04 22:31:03 1080

原创 Python批量读取文件夹下所有文件

现给定一个文件夹,下面有很多文件(可能是一天一个数据文件等),我们要读取该文件夹下面的所有文件

2019-12-04 14:19:35 10022

原创 Linux下Shell编程——寻找是否有第一个参数指定的用户登录

寻找是否有第一个参数指定的用户登录,传入参数t或者tr,找到一个用户名为try的用户程序:#!/bin/bash# finduser----寻找是否有第一个参数指定的用户登录if [ $# -ne 1 ]thenecho usage: finduser username >&2exit 1 fi who | grep $1结果:...

2019-12-03 18:22:03 772

原创 机器学习——KNN及sklearn实现

前言:简单介绍KNN算法,sklearn实现机器学习专栏:机器学习专栏文章目录一、KNN算法原理二、算法参数1、距离2、K值二、sklearn实现KNN一、KNN算法原理K近邻算法是一种“懒惰学习”(lazy learning),就是你给我一个测试样本,我才需要去处理。与其相反的是“急切学习”(eager learning),即是在训练阶段就对数据进行处理。对于分类问题,KNN算法步骤...

2019-12-03 01:09:19 766

原创 VMware虚拟机下载的各种问题

1. 无法打开注册表项UNKNOWN\Components\...请确认你是否有足够的权限访问该注册表项,或者与技术支持人员联系;2. 安装过程中出现vmware authorization service 启动失败,请确认权限。等等。。。(我也不知道咋回事,反正挺坑的)总之很多问题,最后**安装VMware Workstation Pro 15就好了**[安装链接](https://mp.weixin.qq.com/s/Cddh1gT2HgdhuZmtoZbvMQ)(微信公众号:软件安装管家)

2019-11-30 19:05:09 1769

原创 机器学习——朴素贝叶斯分类器及sklearn实现

前言:参考《机器学习》,简单介绍朴素贝叶斯分类器机器学习专栏:机器学习专栏文章目录一、贝叶斯定理二、贝叶斯分类法三、sklearn实现贝叶斯分类一、贝叶斯定理贝叶斯定理(Bayes’ theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。条件概率公式:P(B∣A)=P(A,B)P(B)P(B|A)=\frac {P(A,B)}{P(B)}P(B∣A)=P(B)...

2019-11-30 01:39:08 856

原创 机器学习——支持向量机及sklearn实现

前言:参考《机器学习》,对偶问题没看懂。。。。(我只是一个代码的搬运工。。。)机器学习专栏:机器学习专栏文章目录支持向量机(SVM)1、基本原理2、软间隔3、核函数4、sklearn实现SVM5、SVM多分类4.1多分类原理4.2sklearn实现SVM多分类支持向量机(SVM)1、基本原理现给定数据集D=((x(1),y(i)),(x(2),y(2)),...,(x(m),y(m))...

2019-11-26 21:11:14 250

原创 机器学习——支持向量机(SVM)

前言:参考《机器学习》,对偶问题没看懂。。。。(我只是一个代码的搬运工。。。)机器学习专栏:机器学习——线性回归(预测)机器学习——逻辑回归(分类)机器学习——特征缩放机器学习——正则化机器学习——支持向量机(SVM)文章目录支持向量机(SVM)1、基本原理2、软间隔3、核函数4、sklearn实现SVM5、SVM多分类4.1多分类原理4.2sklear...

2019-11-26 21:11:00 14

原创 机器学习——k-均值算法(聚类)

前言:有三维聚类图,我只是一个代码的搬运工。。。机器学习专栏:机器学习专栏文章目录k-均值(k-means)聚类1、k-均值算法2、k-均值算法的代价函数3、k-均值算法步骤4、初始化聚类中心点和聚类个数5、sklearn实现k-means算法k-均值(k-means)聚类1、k-均值算法k-均值算法是一种无监督学习,是一种“基于原型的聚类”(prototype-based clust...

2019-11-20 21:26:26 3008 1

原创 机器学习——决策树(分类)

前言:内容参考周志华老师的《机器学习》,确实是一本好书,不过本科生读懂还是有很大难度的,大多数模型都是直接给出公式,其实自己私下有推导,涉及好多自己不懂的数学知识,会一点点补充的机器学习专栏:机器学习专栏文章目录一、决策树基本流程二、划分选择1、信息增益(ID3算法)2、信息增益率(C4.5算法)3、基尼指数(CART算法)三、剪枝处理1、预剪枝2、后剪枝三、连续与缺失值处理1、连续值处理2...

2019-11-18 19:17:24 343

原创 数据挖掘——pandas+matplotlib+seaborn数据可视化

前言:python数据挖掘pandas+matplotlib+seaborn数据可视化(画图)的基础知识,简单总结,主要是为了方便自己写代码的时候查看,发现有用的方法,随时补充,欢迎指正数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——pandas+matplotlib+seaborn数据可视化(画图)数据可视化一、数据可视...

2019-11-17 14:28:54 1183

原创 数据分析——数据可视化

前言:python数据分析的基础知识,简单总结,主要是为了方便自己写的时候查看(你们可能看不太清楚T^T),发现有用的方法,随时补充...

2019-11-17 14:28:00 12

原创 数据挖掘——pandas基础

前言:python数据挖掘pandas的基础知识,简单总结,主要是为了方便自己写的时候查看,发现有用的方法,随时补充,欢迎指正数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——pandas+matplotlib+seaborn数据可视化pandas基础一、认识pandas二、两种重要的数据类型1、序列(Series)(1)S...

2019-11-17 14:26:52 638

原创 数据分析——pandas

前言:python数据分析的基础知识,简单总结,主要是为了方便自己写的时候查看(你们可能看不太清楚T^T),发现有用的方法,随时补充...

2019-11-17 14:26:00 12

原创 数据挖掘——python基础

前言:python数据挖掘的基础知识,参考网上很多文章和博客进行总结,主要是为了方便自己写代码的时候查看,发现有用的方法,随时补充数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——pandas+matplotlib+seaborn数据可视化python基础一、python语言介绍1、万物皆对象2、解释型语言(胶水语言)二、基...

2019-11-17 14:23:24 572

原创 数据分析——python基础

前言:python数据分析的基础知识,简单总结,主要是为了方便自己写的时候查看(你们可能看不太清楚T^T),发现有用的方法,随时补充...

2019-11-17 14:23:00 9

原创 机器学习——逻辑回归(分类)

前言:真的是改了很多次!细节真的很多!机器学习专栏:机器学习专栏文章目录逻辑回归(分类)1、基本原理4、梯度下降法4、sklearn实现逻辑回归5、多分类问题5.1多分类原理5.2sklearn实现多分类逻辑回归(分类)1、基本原理逻辑回归用于分类,是对样本属于某一类的概率进行预测,对数几率函数:g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}g(z)=1+e−z...

2019-11-17 14:20:33 3893

原创 机器学习——正则化

前言:大多数模型都是直接给出公式,其实自己私下有推导,涉及好多自己不懂的数学知识,会一点点补充的机器学习专栏:机器学习专栏文章目录正则化1、过拟合问题2、正则化2.1正则化原理2.2L2正则化线性回归2.3L2正则化逻辑回归3、sklearn实现L2正则化正则化1、过拟合问题什么是过拟合?顾名思义,过度拟合,对训练集的学习过于充分,以至于一些影响很小的属性都学到了,但是这并不是我们需要...

2019-11-17 14:18:14 339

原创 机器学习——特征缩放

前言:大多数模型都是直接给出公式,其实自己私下有推导,涉及好多自己不懂的数学知识,会一点点补充的机器学习专栏:机器学习专栏文章目录特征缩放1、特征缩放作用2、特征缩放的四种方式3、sklearn实现特征缩放特征缩放1、特征缩放作用面对特征数量较多的时候,保证这些特征具有相近的尺度(无量纲化),可以使梯度下降法更快的收敛。这两张图代表数据是否均一化的最优解寻解过程(左边是未归一化的),...

2019-11-15 19:41:12 5262

原创 机器学习——线性回归(预测)

前言:大多数模型都是直接给出公式,其实自己私下有推导,涉及好多自己不懂的数学知识,会一点点补充的机器学习专栏:机器学习专栏文章目录线性回归(预测)1、单变量线性回归1.1基本原理1.2最小二乘法1.3sklearn实现单变量线性回归2、多元线性回归2.1基本原理2.2正规方程法2.3梯度下降法2.4sklearn实现多元线性回归2.5模型优化2.5.1多项式回归2.5.2sklearn实现多...

2019-11-13 20:35:13 3370 1

原创 数据处理实例

前言:自己也是小白,主要用作练习和熟悉方法,其实里面很多处理方法还是花了心思去想的(可能还是不是特别简便,特别是膜拜的那个问题,欢迎指正),不涉及算法知识,仅锻炼自己的数据处理能力,数据集如有需要指明用处可共享,这里推荐一篇文章Python数据分析实战基础数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——matplotlib+s...

2019-11-13 11:24:27 4230 3

原创 数据分析——数据处理实例

前言:自己也是小白,主要用作练习和熟悉方法,其实里面很多处理方法还是花了心思去想的(可能还是不是特别简便,特别是膜拜的那个问题,欢迎...

2019-11-13 11:23:00 142

题库、专项练习、笔记和课后习题PDF版.zip

考研复试,c语言简答

2021-03-10

mobike_train_data.csv

2017 年 5 月两周内,北京 40 余万辆摩拜单车被 30 余万摩拜用户的使用情况(该开源数据来源于 2017 年摩拜算法挑战赛)。数据包含 300 余万条出行记录数据,每条的数据包含了订单号(orderid )、用户编号(userid )、单车编号(bikeid)、单车类型(biketype)、 开始使用单车时间(starttime)、 使用起点坐标(startloc)和使用终点坐标(endloc),其中起点和终点坐标经过了geohash 加密

2020-03-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除