自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 练习过程中遇到的一些小问题

词云图wordCloud官方文档from wordcloud import WordCloud, STOPWORDS# 各参数意义:background_color设置背景,wordcloud = WordCloud(background_color='black', stopwords=STOPWORDS, max_words=200, max_font_size=100, random_state=17, w

2020-12-16 19:17:46 291 1

转载 决策数和k近邻分布

决策树决策数是分类与回归问题常用的方法之一。构建决策树熵熵是一个在物理、信息论和其他领域中广泛应用的重要概念,可以衡量获得的信息量。对于具有N种可能状态的系统(这个系统理解为决策树不同的特征顺序可以组成不同的决策树)而言,熵的定义如下:熵可以描述为系统的不确定程度,熵越高,系统的有序性越差,反之亦然。熵可以帮助我们高效的分割数据,例如帮我们找出将哪一个特征当做根节点比较好。玩具示例这个示例能够很好地解释熵如何有利于构建决策树模型的。这里有9个蓝球和11个黄球,如果随机选择一个球,这个球是

2020-12-04 20:32:40 451

转载 线性回归和分类问题

首先,我们知道线性回归的模型为:

2020-12-03 15:04:41 1695

原创 利用python数据分析(2)

利用python进行数据分析首先要导入数据,一般导入数据使用的是下面命令:import pandas as pd# 通过pd读取的文件是Dataframe格式的文件pd.read_csv('文件路径')

2020-11-27 13:40:25 868

转载 RNN神经网络

RNN神经网络RNN网络是一种基础的多层反馈神经网络,该神经网络的节点定向连接成环。相比于前馈神经网络,该网络内部具有很强的记忆性,它可以利用内部的记忆来处理任意时序的输入序列。循环网络的概念循环网络是一种对序列数据有较强的处理能力的网络。在网络模型中不同部分进行权值共享使得模型可以扩展到不同样式的样本,比如CNN网络中一个确定好的卷积核模板,几乎可以处理任何大小的图片。将图片中分成多个区域,使用同样的卷积核对每一个区域进行处理,最后可以获得非常好的处理结果。同样的,循环网络使用类似的模块(形式上相

2020-10-21 18:58:56 3240

原创 机器学习

监督学习监督学习的定义:给算法一个数据集,其中包含正确分数,并用此来预测新的数据集的分数。监督学习分为:回归问题(regression):设法预测连续值的输出。分类问题(classification):设法预测一个离散值的输出。在实际应用中,我们希望可以处理无穷多的特征(features),特征量过多也可能会导致内存溢出,在支持向量机(SVM)算法中提供一种数学方法来处理无穷多的特征。第一个学习算法:线性回归首先定义一些常用的符号:m:表示训练集的数量x:表示输入的特征变量y:表示输

2020-09-05 10:39:42 1221

原创 hadoop各组件Java API

标题

2020-08-12 00:07:46 966

原创 python学习

pythonprint(id(i))id是地址直接i=1,i是不可变的数据类型某个地址的值不可变,即不可变数据类型Linux同步命令 scp1.解释性语言和编译性语言的区别,面对对象的语言,胶水语言(在Python中可以调用别的语言所写的代码)2.如果安装了anaconda 会和本地的python冲突吗3.import 和from……import(进行包的导入)的区别4.python中的关键字def if ……等等5.堆和栈6.字符串类型(不可变类型)的操作:split(分割)、repl

2020-08-04 01:15:24 133

原创 利用python进行数据分析学习笔记

numpy:数组与向量化计算ndarray,一种高效多维数组,提供了基于数组的便捷算术操作以及灵活的广播功能。对所有数据进行快速的矩阵计算,而无需编写循环程序。对硬盘中的数组数据进行读写的工具,并对映射文件进行操作。线性代数,随机数生成和傅里叶变换功能。用于连接numpy到C/C++类库的C语言API。numpy本身并不提供建模和科学函数,理解numpy的数组以及基于数组的计算将帮助更高效的使用基于数组的工具,如pandas。对于大多数数据分析应用,要关注在数据处理、清洗、构造子集、过滤、

2020-08-04 01:03:43 3060

原创 Hadoop学习笔记

大数据:对海量数据进行存储和分析工具:存储:Hadoop(HDFS、HBASE、HIVE)分析:MapReduce、spark、streaming、flink大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。HDFS前身是GFS(谷歌)HBASE前身是BigTable(google)大数据应用领域:物联网、智慧城市、区块链、人工智能物联网:把物品通过信息传感设备与互联网连接起来,进行信息交换。智慧城市:区块链:本质是一个去中心化(点对点的交互,不涉及第三方)

2020-07-31 22:41:38 1900 2

原创 正则表达式

Python中的正则表达式正则表达式import re字符串匹配:re.match(‘ab’,str) 字符串str里匹配ab返回值为下标或none(没有字符ab返回none)(只匹配字符串的开始)re.search(‘bc’,str)(不止匹配开头,但只匹配第一个对应字符串)re.findall(‘bc’,str)(匹配整个字符串,返回值是字符串,可以用在正则表达式的匹配中)re...

2020-07-17 13:35:23 176

原创 Linux常用命令

su - root 转到终端 退出用 exitrpm -qa|grep java 查找依赖库yum -y remove 删除安装包yum -y install ...

2020-05-15 22:43:56 395

原创 CentOs7和leapftp的时候遇到的一些坑

CentOs7和leapftp的时候遇到的一些坑最近想自学一下Hadoop,要在Linux上安装Java jdk,就下载了leapftp想传输tar-gz压缩包。结果卡在了第一关,真是菜的不行。记下来防止以后在遇到这些问题。CentOS上下载vsftpd包使用yum -y install vsftpd下载后修改ftp配置文件vim /etc/vsftpd/vsftpd.conf主要...

2020-04-11 01:03:24 428

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除