PassionXxt-CSDN博客

原创工程醒目上的数据冲突问题解决方案

【代码】工程醒目上的数据冲突问题解决方案。

2024-01-16 23:47:12 350 1

原创剑指Offer刷题目录

剑指Offer刷题目录重要程度：常考>关注>无备注题目类别备注题目类别备注3.数组中重复的数字Array常考4.二维数组中的查找Array常考5.替换空格String6.从尾到头打印链表Linked List7.重建二叉树Tree关注8.二叉树的下一个结点Tree关注9.用两个栈实现队列“StackQueue”关注9.两个队列实现栈“StackQueue”关注10.斐波那契数列“

2020-11-12 20:02:52 111

感知机重点笔记：感知机是二类分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。假设训练数据集是线性可分的，感知机学习的目标是求一个能够将训练集正实例点和负实例点能够完全分离的超平面。就是如何找w和b,需要确定一个学习策略，即定义（经验）损失函数并将损失函数极小化。感知机学习的策略实在假设空间中选区使损失函数最小的模型参数w，b，即感知机模型。感知机学习算法：最优化的方法使随机梯度下降法。感知机学习算法的原始形式：感知机学习算法是误分类驱动的，具有采

2020-09-13 17:07:29 143

原创统计学习方法01

统计学习及监督学习概论1. 概念机器学习的分类：监督学习：从给定的训练数据集中学习出一个函数。训练集要求包括输入和输出，特征和目标。常见的监督学习有回归分析和统计分类（连续/离散）无监督学习：训练集没有人为标注的结果。常见的有聚类。半监督学习：介于监督学习和无监督学习之间增强学习：通过观察学习做成动作。每个动作都会对环境有所影响。学习对象根据观察到的周围环境的反馈来做出判断。假设空间：假设要学的模型属于某个函数的集合，模型可以将输入空间映射到输出空间，这个集合称为假设空间。需要从假设空

2020-09-07 09:51:03 129

原创 Task05：数据建模及模型评估

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常

2020-08-28 23:16:55 261

原创 Task04：数据可视化

开始前导入包和数据：# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plttext = pd.read_csv(r'result.csv')text.head()1.如何让人一眼看懂你的

2020-08-26 11:46:05 219

原创 Task03：数据重构

# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('./data/train-left-up.csv')text.head()1.数据的合并1.1 将data文件夹里面的所有数据都载入，与之前的原始数据相比，观察他们的之间的关系text_left_up = pd.read_csv("data/train-left-up.csv")text_left_d

2020-08-23 22:58:08 146

原创 Task02：数据清洗及特征处理

开始之前导入numpy和pandas包和数据：#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvdf = pd.read_csv('train.csv')1.缺失值观察与处理1.1 缺失值观察(1) 请查看每个特征缺失值个数(2) 请查看Age， Cabin， Embarked列的数据#方法一df.info()#方法二df.isnull().sum()df[['Age','Cabin','Embarked']]

2020-08-21 21:30:30 173

原创 Task01：数据加载及探索性数据分析

1.载入数据1.1 导入numpy和pandasimport numpy as npimport pandas as pd1.2 载入数据df = pd.read_csv('train.csv')df.head(3)1.3 逐块读取数据（每1000行为一个数据模块）chunker = pd.read_csv('train.csv', chunksize=1000)1.4 将表头改成中文，索引改为乘客IDdf = pd.read_csv('train.csv', names=['乘客

2020-08-19 18:35:56 436

转载 CentOS7 Failed to start LSB: Bring up/down解决方法

错误原因：虚拟机挂起操作强制关机，开机后网卡启动不了了。解决方法：https://blog.51cto.com/addam/1839518 ----关掉NetworkManager并重启网络（转载来自51CTO博客作者残夜寻茶香的文章，解决我的问题，十分感谢，特此记录一下。）...

2019-03-28 21:10:20 578

转载 Cloudera的CDH和Apache的Hadoop的区别

目前而言，不收费的Hadoop版本主要有三个(均是国外厂商)，分别是：Apache(最原始的版本，所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop，简称CDH)、Hortonworks版本(Hortonworks Data Platform，简称“HDP”)，对于国内而言，绝大多数选择CDH版本...

2018-12-18 22:27:04 585

原创 Hadoop集群各守护进程入门级详解

&amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&a

2018-10-06 18:20:31 3259

PassionX的博客