Tao_RY-CSDN博客

原创机器学习——集成学习基础

文章目录一、集成学习介绍二、随机森林（Random Forest）1、Bagging2、随机森林3、sklearn实现RF分类三、提升方法（Boosting）1、AdaBoost（Adaptive boosting）2、GBDT（Gradient Boost Decision Tree)一、集成学习介绍在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型（弱监督模型，在某些方面表现的比较好）。集成学习就是组合这

2021-11-14 10:30:25 513

原创数据挖掘——MySQL基础

MySQL基础一、MySQL入门1、进入mysql2、显示数据库3、选择数据库4、查看可用表5、查看表的列二、检索数据1、检索列2、检索不同的行3、限制结果三、排序数据四、过滤数据一、MySQL入门1、进入mysql mysql -uroot -p2、显示数据库mysql> show databases;+--------------------+| Database |+--------------------+| information_schema ||

2021-01-16 00:27:04 1316

原创 python数据可视化——matpiotlib、pandas、seaborn

一、饼图二、条形图三、直方图与核密度曲线四、箱线图五、小提琴图六、折线图七、散点图八、气泡图九、热力图

2020-12-20 11:30:49 773

原创熵值法python实现

在信息论中，熵是对不确定性的一种度量。不确定性越大，熵就越大，包含的信息量越大；不确定性越小，熵就越小，包含的信息量就越小。根据熵的特性，可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响（权重）越大。比如样本数据在某指标下取值都相等，则该指标对总体评价的影响为0，权值为0.熵权法是一种客观赋权法，因为它仅依赖于数据本身的离散性。但其实通过熵值法确定权重并不是特别合理。熵值法python实现：# -*- coding:u

2020-05-16 22:57:07 4124

原创 matplotlib图例中文乱码

matplotlib图例中文乱码解决方案（目前看到最好的一个）：链接

2020-05-13 00:49:46 278

原创机器学习——常用性能指标及sklearn中的模型评估

机器学习专栏：机器学习专栏模型评估一、回归指标二、分类指标导入方式:sklearn.metricsfrom sklearn.metrics import mean_squared_errorfrom sklearn.metrics import r2_score一、回归指标回归方差(反应自变量与因变量之间的相关程度)explained_variance_score(y_true...

2020-04-15 11:10:49 881

原创 Maximum Subsequence Sum (25)-PAT甲级真题（最大连续子序列和、动态规划dp）

#include &amp;lt;stdio.h&amp;gt;#include &amp;lt;malloc.h&amp;gt;int main(){ int n;//数组的长度 scanf(&quot;%d&quot;, &amp;amp;n); int *List;//定义数组 List = (int*)malloc(n * sizeof(int)); ## ***int

2020-04-14 11:30:02 308

原创 C语言之递归算法

递归算法的核心就是对自身的不断调用，但是必须要有递归出口1、计算阶乘int factorial(int n){ if(n == 1) return 1;//这里就是的递归的出口 else return n * factorial(n - 1);}2、汉罗塔问题void Hanoi (int n, char A, char B, char C...

2020-04-14 11:28:41 665

原创 C语言之字符指针（二维数组）

输入一个学生姓名，在含有4个学生的名单中查找该学生是否存在，并输出查找结论；#include &amp;lt;stdio.h&amp;gt;#include &amp;lt;string.h&amp;gt;int main(){ char *name[4]={&quot;Tom&quot;,&quot;Smith&quot;,&quot;Ellen

2020-04-14 11:27:10 2777

原创分而治之——最大子列和

分而治之简而言之就是先分再治理（合并）：1、从头开始分（在线处理）每输入一个变量就对变量进行处理（可以理解为对n个数不断分为1和后面的所有项），对分出来的那一个变量在线处理（治）；2、从中间开始分if (left == right) { /* 递归的终止条件，子列只有1个数字 */ if (A[left] &amp;gt; 0) return A[left]; else return ...

2020-04-14 11:23:49 743

原创 pandas——微博数据分析

数据介绍：Use of this dataset in publications must be acknowledged by referencing the following publication:King-wa Fu, CH Chan, Michael Chau. Assessing Censorship on Microblogs in China: Discriminatory...

2020-04-14 11:22:07 408

原创膜拜共享单车数据分析

数据：2017年5月两周内，北京40余万辆摩拜单车被30余万摩拜用户的使用情况(该开源数据来源于2017年摩拜算法挑战赛)。数据包含300余万条出行记录数据，每条的数据包含了订单号(orderid )、用户编号(userid )、单车编号(bikeid)、单车类(biketype)、开始使用单车时间(starttime)、使用起点坐标(startloc)和使用终点坐标(endloc)，其中起点和终...

2020-04-14 11:21:39 2509

原创 2017年全国大学生数学建模B题数据处理

2017年全国大学生数学建模B题数据处理# -*- coding: utf-8 -*-"""Created on Fri Oct 18 20:17:00 2019@author: 1"""import pandas as pdimport matplotlib.pyplot as pltimport smopy#读取数据df=pd.read_excel('附件一：已...

2020-04-14 11:21:18 4373 1

原创爬虫实战——爬取杭电就业信息网招聘信息

杭电宣讲会信息爬取爬取内容：宣讲单位，宣讲时间，所在学校，宣讲地点，单位简介等项目需求实现两层网页的信息爬取，并将爬取的信息进行整合保存到 excel 文件中。（1）基础：爬取一个外层页中，所有内层页的信息（2）进阶：爬取多个外层页中，所有内层页的信息每个题目中，至少爬取上述给定爬取内容中的五项。自学数据可视化方法，将爬取结果以曲线图、柱状图等方式显示。自学 scra...

2020-04-14 11:19:44 1789 5

原创 DataFrame的groupby合并数据

现有数据如下格式：我们需要根据日期统计日点击量，画出日点击量图# -*- coding: utf-8 -*-"""Created on Thu Nov 7 18:39:18 2019@author: 1"""import pandas as pdfrom matplotlib import pyplot as pltdf=pd.read_excel('test.xls'...

2020-04-14 11:18:15 2495

原创机器学习——sklearn实现半监督学习

前言：简单介绍半监督学习，无公式推导，并用sklearn实现机器学习专栏：机器学习专栏文章目录一、算法思路1、生成模型2、物以类聚（label propagation）二、标签传播算法的两种计算方式1. RBF2. KNN三、sklearn实现LP算法一、算法思路1、生成模型先计算样本特征的总体的联合分布，将所有有标注的样本计算出一个分布，然后把没有标注的样本放入这个分布中，看根据这个...

2020-04-13 23:54:29 3079 1

原创 DataFrame按行/列遍历并按条件修改

1、按行遍历iterrows()：包含索引和每一行元素In[25]: dfOut[25]: a b c d0 1 2 4 01 20 10 14 02 20 10 14 0In[26]: for index, row in df.iterrows(): ...: if row['a'] > 1: ...: ...

2020-03-26 01:06:42 10959 1

原创 python读取matlab的mat文件

python读取mat文件主要是通过scipy.io模块import scipy.io import numpy as np# python 读取mat文件signal = scipy.io.loadmat('Python basics/Dat_2.mat')查看一下signal的类型：字典In[7]: type(signal)Out[7]: dict查看signal[‘...

2020-03-23 20:01:31 389

原创机器学习——主成分分析及sklearn实现

前言：数学知识太复杂，似懂非懂机器学习专栏：机器学习专栏主成分分析一、主成分分析原理二、最近重构性和最大可分性1、最近重构性2、最大可分性三、sklearn实现PCA一、主成分分析原理主成分分析（Principal components analysis，以下简称PCA）是最重要的降维方法之一。由于各变量间存在一定的相关关系，因此有可能用较少的综合指标分别综合存在于各变量中的各类信息，在...

2019-12-04 22:31:03 1239

原创 Python批量读取文件夹下所有文件

现给定一个文件夹，下面有很多文件（可能是一天一个数据文件等），我们要读取该文件夹下面的所有文件

2019-12-04 14:19:35 10233

原创 Linux下Shell编程——寻找是否有第一个参数指定的用户登录

寻找是否有第一个参数指定的用户登录，传入参数t或者tr，找到一个用户名为try的用户程序：#!/bin/bash# finduser----寻找是否有第一个参数指定的用户登录if [ $# -ne 1 ]thenecho usage: finduser username >&2exit 1 fi who | grep $1结果：...

2019-12-03 18:22:03 878

原创机器学习——KNN及sklearn实现

前言：简单介绍KNN算法，sklearn实现机器学习专栏：机器学习专栏文章目录一、KNN算法原理二、算法参数1、距离2、K值二、sklearn实现KNN一、KNN算法原理K近邻算法是一种“懒惰学习”（lazy learning），就是你给我一个测试样本，我才需要去处理。与其相反的是“急切学习”（eager learning），即是在训练阶段就对数据进行处理。对于分类问题，KNN算法步骤...

2019-12-03 01:09:19 901

原创 VMware虚拟机下载的各种问题

1. 无法打开注册表项UNKNOWN\Components\...请确认你是否有足够的权限访问该注册表项,或者与技术支持人员联系；2. 安装过程中出现vmware authorization service 启动失败，请确认权限。等等。。。（我也不知道咋回事，反正挺坑的）总之很多问题，最后**安装VMware Workstation Pro 15就好了**[安装链接](https://mp.weixin.qq.com/s/Cddh1gT2HgdhuZmtoZbvMQ)（微信公众号：软件安装管家）

2019-11-30 19:05:09 2052

原创机器学习——朴素贝叶斯分类器及sklearn实现

前言：参考《机器学习》，简单介绍朴素贝叶斯分类器机器学习专栏：机器学习专栏文章目录一、贝叶斯定理二、贝叶斯分类法三、sklearn实现贝叶斯分类一、贝叶斯定理贝叶斯定理（Bayes’ theorem）是概率论中的一个定理，描述在已知一些条件下，某事件的发生概率。条件概率公式：P(B∣A)=P(A,B)P(B)P(B|A)=\frac {P(A,B)}{P(B)}P(B∣A)=P(B)...

2019-11-30 01:39:08 1167

原创机器学习——支持向量机及sklearn实现

前言：参考《机器学习》，对偶问题没看懂。。。。（我只是一个代码的搬运工。。。）机器学习专栏：机器学习专栏文章目录支持向量机（SVM）1、基本原理2、软间隔3、核函数4、sklearn实现SVM5、SVM多分类4.1多分类原理4.2sklearn实现SVM多分类支持向量机（SVM）1、基本原理现给定数据集D=((x(1),y(i)),(x(2),y(2)),...,(x(m),y(m))...

2019-11-26 21:11:14 357

原创机器学习——支持向量机（SVM）

前言：参考《机器学习》，对偶问题没看懂。。。。(我只是一个代码的搬运工。。。)机器学习专栏：机器学习——线性回归(预测)机器学习——逻辑回归(分类)机器学习——特征缩放机器学习——正则化机器学习——支持向量机(SVM)文章目录支持向量机(SVM)1、基本原理2、软间隔3、核函数4、sklearn实现SVM5、SVM多分类4.1多分类原理4.2sklear...

2019-11-26 21:11:00 131

原创机器学习——k-均值算法（聚类）

前言：有三维聚类图，我只是一个代码的搬运工。。。机器学习专栏：机器学习专栏文章目录k-均值（k-means）聚类1、k-均值算法2、k-均值算法的代价函数3、k-均值算法步骤4、初始化聚类中心点和聚类个数5、sklearn实现k-means算法k-均值（k-means）聚类1、k-均值算法k-均值算法是一种无监督学习，是一种“基于原型的聚类”（prototype-based clust...

2019-11-20 21:26:26 3519 1

原创机器学习——决策树（分类）

前言：内容参考周志华老师的《机器学习》，确实是一本好书，不过本科生读懂还是有很大难度的，大多数模型都是直接给出公式，其实自己私下有推导，涉及好多自己不懂的数学知识，会一点点补充的机器学习专栏：机器学习专栏文章目录一、决策树基本流程二、划分选择1、信息增益（ID3算法）2、信息增益率（C4.5算法）3、基尼指数（CART算法）三、剪枝处理1、预剪枝2、后剪枝三、连续与缺失值处理1、连续值处理2...

2019-11-18 19:17:24 501

原创数据挖掘——pandas+matplotlib+seaborn数据可视化

前言：python数据挖掘pandas+matplotlib+seaborn数据可视化（画图）的基础知识，简单总结，主要是为了方便自己写代码的时候查看，发现有用的方法，随时补充，欢迎指正数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——pandas+matplotlib+seaborn数据可视化（画图）数据可视化一、数据可视...

2019-11-17 14:28:54 1495

原创数据分析——数据可视化

前言：python数据分析的基础知识，简单总结，主要是为了方便自己写的时候查看(你们可能看不太清楚T^T)，发现有用的方法，随时补充...

2019-11-17 14:28:00 57

原创数据挖掘——pandas基础

前言：python数据挖掘pandas的基础知识，简单总结，主要是为了方便自己写的时候查看，发现有用的方法，随时补充，欢迎指正数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——pandas+matplotlib+seaborn数据可视化pandas基础一、认识pandas二、两种重要的数据类型1、序列(Series)（1）S...

2019-11-17 14:26:52 1194

原创数据分析——pandas

前言：python数据分析的基础知识，简单总结，主要是为了方便自己写的时候查看(你们可能看不太清楚T^T)，发现有用的方法，随时补充...

2019-11-17 14:26:00 73

原创数据挖掘——python基础

前言：python数据挖掘的基础知识，参考网上很多文章和博客进行总结，主要是为了方便自己写代码的时候查看，发现有用的方法，随时补充数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——pandas+matplotlib+seaborn数据可视化python基础一、python语言介绍1、万物皆对象2、解释型语言（胶水语言）二、基...

2019-11-17 14:23:24 841

原创数据分析——python基础

前言：python数据分析的基础知识，简单总结，主要是为了方便自己写的时候查看(你们可能看不太清楚T^T)，发现有用的方法，随时补充...

2019-11-17 14:23:00 53

原创机器学习——逻辑回归（分类）

前言：真的是改了很多次！细节真的很多！机器学习专栏：机器学习专栏文章目录逻辑回归（分类）1、基本原理4、梯度下降法4、sklearn实现逻辑回归5、多分类问题5.1多分类原理5.2sklearn实现多分类逻辑回归（分类）1、基本原理逻辑回归用于分类，是对样本属于某一类的概率进行预测，对数几率函数：g(z)=11+e−zg(z)=\frac{1}{1+e^{-z}}g(z)=1+e−z...

2019-11-17 14:20:33 4635

原创机器学习——正则化

前言：大多数模型都是直接给出公式，其实自己私下有推导，涉及好多自己不懂的数学知识，会一点点补充的机器学习专栏：机器学习专栏文章目录正则化1、过拟合问题2、正则化2.1正则化原理2.2L2正则化线性回归2.3L2正则化逻辑回归3、sklearn实现L2正则化正则化1、过拟合问题什么是过拟合？顾名思义，过度拟合，对训练集的学习过于充分，以至于一些影响很小的属性都学到了，但是这并不是我们需要...

2019-11-17 14:18:14 527

原创机器学习——特征缩放

前言：大多数模型都是直接给出公式，其实自己私下有推导，涉及好多自己不懂的数学知识，会一点点补充的机器学习专栏：机器学习专栏文章目录特征缩放1、特征缩放作用2、特征缩放的四种方式3、sklearn实现特征缩放特征缩放1、特征缩放作用面对特征数量较多的时候，保证这些特征具有相近的尺度（无量纲化），可以使梯度下降法更快的收敛。这两张图代表数据是否均一化的最优解寻解过程（左边是未归一化的），...

2019-11-15 19:41:12 5754

原创机器学习——线性回归（预测）

前言：大多数模型都是直接给出公式，其实自己私下有推导，涉及好多自己不懂的数学知识，会一点点补充的机器学习专栏：机器学习专栏文章目录线性回归（预测）1、单变量线性回归1.1基本原理1.2最小二乘法1.3sklearn实现单变量线性回归2、多元线性回归2.1基本原理2.2正规方程法2.3梯度下降法2.4sklearn实现多元线性回归2.5模型优化2.5.1多项式回归2.5.2sklearn实现多...

2019-11-13 20:35:13 3879 1

原创数据处理实例

前言：自己也是小白，主要用作练习和熟悉方法，其实里面很多处理方法还是花了心思去想的（可能还是不是特别简便，特别是膜拜的那个问题，欢迎指正），不涉及算法知识，仅锻炼自己的数据处理能力，数据集如有需要指明用处可共享，这里推荐一篇文章Python数据分析实战基础数据挖掘专栏数据挖掘——python基础数据挖掘——numpy基础数据挖掘——pandas基础数据挖掘——matplotlib+s...

2019-11-13 11:24:27 4490 3

原创数据分析——数据处理实例

前言：自己也是小白，主要用作练习和熟悉方法，其实里面很多处理方法还是花了心思去想的(可能还是不是特别简便，特别是膜拜的那个问题，欢迎...

2019-11-13 11:23:00 217

mobike_train_data.csv

题库、专项练习、笔记和课后习题PDF版.zip

空空如也