方圆猿-CSDN博客

原创 JavaSE 之 List＜List＜Integer＞＞

Java 之 List<List>关于解释List＜Integer＞ list = new ArrayList＜Integer＞()

2021-06-04 15:35:15 391

原创 Python基础-字典、集合、序列

一、字典1.1 字典的定义字典是无序的键:值（key:value）对集合，键必须是互不相同的（在同一个字典之内）。dict 内部存放的顺序和 key 放入的顺序是没有关系的。dict 查找和插入的速度极快，不会随着 key 的增加而增加，但是需要占用大量的内存。字典定义语法为 {元素1, 元素2, …, 元素n}其中每一个元素是一个「键值对」-- 键:值 (key:value)关键点是「大括号 {}」,「逗号 ,」和「冒号 :」大括号 – 把所有元素绑在一起逗号 – 将每个键值对

2020-07-31 22:07:39 173

原创 Python基础-列表、元组、字符串

一、列表1.1 列表的定义列表是有序集合，没有固定大小，能够保存任意数量任意类型的Python对象列表不像元组，列表内容可以更改，可以进行增删改查1.2 列表的创建直接创建列表【例 1】x = [2,3,4,5,6,7,8]print(x,type(x))# [2, 3, 4, 5, 6, 7, 8] <class 'list'>利用range()创建列表【例 2】x = list(range(10))print(x, type(x))# [0

2020-07-28 21:53:39 443

原创 Day3 20200725异常处理

异常处理1.Python标准异常总结BaseException：所有异常的基类Exception：常规异常的基类StandardError：所有的内建标准异常的基类ArithmeticError：所有数值计算异常的基类FloatingPointError：浮点计算异常OverflowError：数值运算超出最大限制ZeroDivisionError：除数为零AssertionError：断言语句（assert）失败AttributeError：尝试访问未知的对象属性EOFErro

2020-07-25 21:45:43 109 1

原创 Python基础-条件、循环语句

一、条件语句1.1 if语句if expression: expr_true_suite单个if语句中的expression条件表达式可以通过布尔操作符and,or和not实现多条件判断【例 1】if 2 > 1 and not 2 > 3: print('Correct Judgement!') # Correct Judgement!1.2 if-else语句if expression: expr_true_suiteelse: expr_

2020-07-23 22:34:06 80

原创 Python基础-Task1变量、运算符与数据类型

变量、运算符与数据类型、位运算1.注释2.运算符算术运算符比较运算符位运算符三元运算符变量和赋值3.位运算原码、反码、补码按位与、或、非、异或1.注释代码中，# 用于单行注释，’’’ ‘’’ 、""" “”" 表示区间注释，用于多行注释2.运算符算术运算符包括 +、-、*、/、//（取整）、**（幂）比较运算符包括 >、>=、<、<=、==、！=，返回的是布尔类型位运算符~ 按位取反& 按位与| 按位或^ 按位异或<

2020-07-22 21:43:37 124

原创 Pandas-分组

第三章分组import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head() School Class Gender Address Height Weig...

2020-04-26 23:07:01 497

原创 Pandas-索引

import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head()一单级索引1 loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类，其中iloc表示位置索引，loc表示标签索引，[]也具有很大的便利性，各有特点：(a) loc方法① 单行...

2020-04-23 21:35:07 223

原创 Pandas-入门基础

查看Pandas版本import pandas as pdimport numpy as npprint(pd.__version__)一文件读取与写入（a）csv格式df = pd.read_csv('data/table.csv')df.head()(b) txt格式# 可设置sep分隔符参数df_txt = pd.read_table('data/table.t...

2020-04-20 23:12:34 122

原创 Hadoop+eclipse大数据开发环境开发搭建

一虚拟机安装centos71然而…成功得到一个大大的红色叉叉，emmm…,咱不怕，看见红色箭头指向的文件夹名称没有，在上面的安装目录上notepad++打开它人家长这样式儿哟，不要看错人家将vmci0.present = ‘TRUE’修改成’FALSE’将图形界面更改为命令行界面1、查看当前的默认界面形式：systemctl get-default结果出现：grap...

2020-04-20 11:14:29 353 1

原创 pycharm安装xgboost

setting中没有单独的xgboost安装包，实施证明pycharm导入xgboost报错python各下载包

2020-04-11 17:17:29 2253

原创从零开始搭建Hadoop

第一部分：准备工作1 安装虚拟机2 安装centos73 安装JDK以上三步是准备工作，至此已经完成一台已安装JDK的主机第二部分：准备３台虚拟机以下所有工作最好都在root权限下操作1 克隆上面已经有一台虚拟机了,现在对master进行克隆,克隆出另外2台子机;1.1 进行克隆21.2 下一步1.3 下一步1.4 下一步1.5 根据子机需要,命名和安装路径1.6 ...

2020-04-10 10:56:04 333

原创天池比赛二手车预测Task5-模型融合

声明：本人是小白，第一次接触机器学习大型项目，感谢天池Datawhale提供学习机会，由于刚入门，能力有限，故只能跟着课程照猫画虎复现代码，内容完全尊重原意。Datawhale天池五、模型融合5.1 模型融合目标对于多种调参完成的模型进行模型融合。完成对于多种模型的融合，提交融合结果并打卡。5.2 内容介绍1.简单加权融合:回归（分类概率）：算术平均融合（Arithmetic ...

2020-04-04 14:49:02 196

原创 Python错误排除

1 导入文件时报错imgData, row, col = loadData('c:/Users/86242/Desktop/bull.jpg') # 双斜杠排除一：将\改成/排除二：路径错误，报OSError: [Errno 22] Invalid argument: '\u202aC:将磁盘符C改成c排除三：在路径前面加r，比如r’c:/Users/86242/Desktop/bu...

2020-04-01 22:55:55 245

原创天池比赛二手车预测Task4-建模调参

四、建模与调参4.1 学习目标了解常用的机器学习模型，并掌握机器学习模型的建模与调参流程4.2内容介绍1.线性回归模型：线性回归对于特征的要求；处理长尾分布；理解线性回归模型；2.模型性能验证：评价函数与目标函数；交叉验证方法；留一验证方法；针对时间序列问题的验证；绘制学习率曲线；绘制验证曲线；3.嵌入式特征选择：Lasso回归；Ridge回归；决策树...

2020-03-31 09:16:57 227

原创 Pandas用法总结

一、生成数据表1 首先导入pandas库，通常会用到numpy库，所以一起导入import numpy as npimport pandas as pd2 导入csv或者xlsx文件(包括两种方法)# 方法一：df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('nam...

2020-03-30 19:53:16 757

原创 Hadoop+Eclipse+JDK相关环境配置

随着网上课程开启，所有课程中大数据老师最为负责，讲课最为生动，勾起了学习欲望，开始搭建吧~1、导入虚拟机课程开始前，老师给了三个包，分别是master,slave1,slave2,用的系统是centos7,网上说centos更加专业一点，符合企业实战，ubuntu更加轻量级，但是呢，既然老师已经搭建好就用它吧！首先呢，去年已经安装好了VM,所以省去了安装虚拟机环节，这个安装资料网上一大堆，没...

2020-03-28 22:23:42 364

原创天池比赛二手车预测Task3-特征工程

声明：本人是小白，第一次接触机器学习大型项目，感谢天池Datawhale提供学习机会，由于刚入门，能力有限，故只能跟着课程照猫画虎复现代码，内容完全尊重原意。Datawhale天池三、特征工程3.1 特征工程目标对于特征进行进一步分析，并对于数据进行处理完成对于特征工程的分析3.2 特征工程内容1.异常处理：通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处...

2020-03-27 19:46:46 199

转载天池比赛二手车预测Task2-数据分析

声明：本人是小白，第一次接触机器学习大型项目，感谢天池Datawhale提供学习机会，由于刚入门，能力有限，故只能跟着课程照猫画虎复现代码，内容完全尊重原意。Datawhale天池二、EDA-数据探索性分析2.1 EDA目标EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间...

2020-03-24 16:59:38 856

原创天池比赛二手车预测Task1-赛题理解

1

2020-03-23 10:05:24 260

原创天池比赛二手车预测Baseline

BaselineStep 1:导入函数工具箱## 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.special import jnfrom IPython...

2020-03-23 10:02:40 414

转载机器学习笔记11-线性回归(上)

蛮力法-暴力求解

2020-03-22 21:26:16 208

原创 HDFS分布式文件系统

HDFS分布式文件系统一、HDFS简介1 HDFS演变二、HDFS的构架与原理1 HDFS存储架构2 HDFS写数据原理hadoop fs -put slaves /2 HDFS读数据原理hadoop fs -cat1 hadoop要解压到没有中文路劲的地方2 配置环境变量3 dll放到c盘systs324其他两个放到hadoop bin5 文件放到eclipse...

2020-03-22 10:07:19 55

原创机器学习笔记10-Adaboost

一、基础知识1 集成学习方法通过组合多个弱基分类器来实现强分类器目的，从而提高分类性能。集成学习是一类算法，而不是指一个算法。集成学习策略有非常多种，包括数据层面、模型层面和算法层面三个方面集成。常用的两种集成学习方法是：bagging袋装法，典型代表随机森林(random forests)...

2020-03-19 13:40:18 153

原创机器学习笔记9-Logistic回归实战

一、改进的随机梯度上升算法对于上一节的梯度上升算法：def gradAscent(dataMatIn,classLabels): # 转换成numpy的mat dataMatrix = np.mat(dataMatIn) # 转换成numpy的mat并进行转置 labelMat = np.mat(classLabels).transpose() # 返回...

2020-03-16 21:25:09 254

原创机器学习笔记8-Logistic回归基础

一、基础知识1 回归的含义回归即为最佳拟合，用一条直线对这些点进行拟合的过程，逻辑回归过程即为寻找最佳拟合参数的过程，使用的是最优化理论。2 最优化理论中常用的优化算法梯度下降法和梯度上升法随机梯度下降法批量梯度下降法小批量随机梯度下降法牛顿法和拟牛顿法共轭梯度法拉格朗日乘数法启发式优化算法-智能算法人工神经网络，模拟退火算法，禁忌搜索算法，粒子群算法，蚁群算法，鱼群算法...

2020-03-16 12:24:01 185

原创机器学习笔记7-朴素贝叶斯实战

11111

2020-03-15 08:43:33 76

原创机器学习笔记6-朴素贝叶斯基础

一、朴素贝叶斯理论1、贝叶斯决策理论贝叶斯决策理论核心思想：如果p1(x,y) > p2(x,y),那么类别为1如果p1(x,y) < p2(x,y),那么类别为2哪个概率高则选择哪一个类别。其中，p1(x,y)表示数据点(x,y)属于类别1的概率。2、贝叶斯准则-条件概率(conditional probability)计算P(A∣B)=P(A∩B)P(B)P(A|...

2020-03-09 20:39:12 150

原创机器学习笔记5-决策树（下）

一、前言前一节讲述了机器学习决策树的原理，以及如何选择最优特征作为分类特征。本节主要内容：决策树构建决策树可视化（白盒模型，神经网络是黑盒模型）使用决策树进行分类预测决策树存储与读取sklearn预测隐形眼镜类型二、决策树构建**决策树生成原理：**得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，...

2020-03-07 12:15:32 236

原创机器学习笔记4-sklearn&决策树(上)

决策树两大核心如何划分数据集；何时停止划分数据集一、决策树构造特征选择，决策树生成，决策树修剪决策树简介决策树由结点(node)和有向边(directed edged)组成。结点有两种类型：内部结点(internal node)和叶结点(lead node)。内部结点表示一个特征或属性，叶结点表示一个类。如下图，长方形和椭圆都是结点，其中，长方形结点属于内部结点，代表判断模块(decis...

2020-03-01 20:33:31 174

原创机器学习笔记3-KNN机器学习实战

一、KNN01 爱情片or动作片？输入四个电影的打斗镜头和接吻镜头个数，区分输入电影属于爱情片还是动作片import numpy as npimport operator #运算符模块def createDataSet(): # 四组二维特征 group = np.array([[3,104],[2,100],[101,10],[99,5]]) # 四组特征的标签...

2020-02-25 22:10:46 235

原创机器学习笔记2-KNN

KNN(K-NearestNeighbor)–k最近邻，NN代表神经网络的意思k最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居表示核心思想：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并且具有这个类别样本的特性。算法三要素k值的选取距离度量的方式分类决策规则k值的选择对于k值的选择，没有一个固定的经验，一...

2020-02-19 17:27:49 408

原创机器学习笔记1-算法分类

机器学习算法分类分类(Classification)Y值相当于判断好人还是坏人,结果是离散值，应用场合更多二分类（binary classification）：只涉及到两个类别的分类任务正类：二分类中，关注的那个类;反之，为反类多分类：涉及多个类别的分类回归(regression)Y值结果通常是连续值，预测实现更难，预测趋势更常见，应用场合少于分类聚类(clustering)没有...

2020-02-12 16:55:21 172

qq_42722145的博客