自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_43427905的博客

原创大数据复习1

虚拟化技术是伴随着计算机的出现而产生和发展起来的，虚拟化意味着对计算机资源的抽象。虚拟化技术已经成为构建云计算环境的一项关键技术。服务器虚拟化存储虚拟化网络虚拟化客户-服务器模式只要保证master正常工作，很容易随意添加slave，硬盘存储空间无限大。统一存储空间，统一文件接口整个集群就像是一台机器、一片云，硬盘显示为统一存储空间，文件接口统一。为提高扩展性，HDFS采用了master/slave架构来构建分布式存储集群，这种架构很容易向集群中任意添加或删除slave。namenode统一管理所有sla

2022-06-02 15:36:36 126

原创 Jupyter 无反应无法打开

pip install tornado --user --ignore-installed -i https://pypi.tuna.tsinghua.edu.cn/simple然后打开了，撒花~~~

2022-03-03 20:19:48 361

原创深度学习二

1.下载和自己电脑匹配的torch：pip install torch==1.5.1+cu92 torchvision==0.6.1+cu92 -f https://download.pytorch.org/whl/torch_stable.html

2021-07-08 14:41:40 118

原创机器学习五---用户流失

1.将DataFrame所有元素替换的方法参考：https://www.jianshu.com/p/2557a805211f注意：df1.replace("女",0,inplace=True)：replace替换只能是完全匹配才可以，如果不完全匹配无法替换，且不会报错。可以把语句加一个参数：df1.iloc[:,5:15]=df1.iloc[:,5:15].replace("准","5",regex=True)（好像还得赋个值，要不然整不了）2.pandas显示一列中的不同值：比如说有一

2021-06-25 17:26:03 109

原创机器学习四

特征工程的方法：1.特征选择移：移除低方差的特征VarianceThresholdThreshold（设置水平线，阈值）2.单变量特征选择：SelectKBest移除最高之外的（参数k=n1）SelectPercentile百分比之前3.基于Tree的特征选取，基于树的estimators计算重要特征。列出属性重要程度，（）4.pipeline5.网格搜索实例分析：客户价值分析：显示DataFrame的相信信息：info()方法sample(5)抽样

2021-06-24 11:27:40 60

原创机器学习实训三

1.如果第一行是数据不是列名，读取csv文件的时候要让header=None。默认header=02.pandas 取出表中一列数据所有的值并转换为array类型的方法：# -*-coding: utf-8 -*-import pandas as pd#读取csv文件df=pd.read_csv('A_2+20+DoW+VC.csv')#求‘ave_time'的平均值aveTime=df['ave_time'].mean()#把ave_time这列的缺失值进进行填充，填充的方法是按这一

2021-06-23 17:29:59 232

原创机器学习实训

1.merge：列的类型要一样：.astype("str")2.join：(连列名都得一样才能关联)3.conbine_first（数据合并）使两列的空值减少4.把索引干掉，有重复值5.duplicated()标记为false没有重复（布尔索引）6.判断字符重复自己写一个equse函数，来判断，矢量化运算。7.防止中文编码有问题：mysql -u root -p --default-character-set=utf8use dbnamesource /...

2021-06-22 17:34:04 259

原创 scala

注意事项：1.cmd看scala的版本，然后build path之后加入scala的library2.run congur。。，上边参考

2021-01-08 10:08:37 176 2

原创 Kafka学习

PATH=$KAFKA_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport KAFKA_HOME=/home/hadoop/app/kafka_2.11-2.4.1kafka-server-start.sh /home/hadoop/app/kafka_2.11-2.4.1/config/server.propertieskafka要集群中过半开启kafka启动：我这里的安装目录是：/home/b.

2021-01-07 11:51:07 73

原创虚拟机搭建

我是复制的同学的虚拟机搭建的，需要注意配置成静态net在root的家目录下运行1.查看集群ip地址的分部vim /etc/hosts2.修改ip到与自己网段相同的同一网段首先 cd /etc/sysconfig/network-scripts/然后ls，查看ifcfg-eno16777736 类型的文件，然后按照老师的文件配置3。如果发现ifconfig没了，就执行以下四个语句（见收藏夹）...

2021-01-06 11:24:20 148 5

原创数据分析之客户对象---kmeans

数据分析的步骤：1.用pandas读取数据2.用data.describe()方法查看数据的详细3.数据预处理：缺失值处理 data.dropna()。如果数据量大，有缺失的数据直接删除 data.fillna(data.median(),inplace=True)如果数据量小，有缺失值用平均值填充 2.归一化from sklearn import preprocessingscaler = preprocessing.StandardSca...

2020-12-02 21:20:13 331

原创 Python——各种方法的使用（尽量每天更新）——from（数据挖掘课）

一、读取数据1.在同一项目下，可以用:".\XXX"data=pd.read_csv(“.\XXX.dat,header=None”)#表示无表头2.pandas直接读取数据之后为DataFrame类型（data）只要列数一样就可以调用data.columns=['XXX','XXX']二、使代码写起来简单的计算方法1.shape：可以利用这个函数进行数据的便利，返回值位长度（整数数值）就不用len(XX)了data.shape[0]#表示第一维的长度，也就是行数.

2020-11-19 21:39:46 156

原创 javaweb

404被占用：netstat -ano|findstr "8080"查看终止

2020-11-14 21:26:49 67 4

原创 mysql安装

mysql553305这个不能选，要不然最后一步下不下来

2020-11-07 11:06:20 61 1

转载 R语言

路径配置：包括工程位置和包的位置，亲测好用https://blog.csdn.net/mona_sunshine/article/details/53042413?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFro

2020-10-10 20:45:29 96

原创 2020-08-18

含泪把人脸识别的总结PPT整好了。暂时和深度学习告一段落。我要复习了，资源在我主页可以找到。傍晚安。今天学习汇报就到这里结束了。要看录屏学习了。。苦啊

2020-08-18 18:05:07 80

原创 2020-08-17

1.我今天才知道人脸数据集是有标注点的。比如：Wider Facial Landmark in the Wild（WFLW），它提供了98个关键点。越是最近标注点越多，越精确，人脸关键点已经达到168个点了。所以我们做的动物面部识别要尽量整上关键点。106个关键点标注是商汤科技提出的在业内被广泛采用的方案。后续又在106个关键点的基础上提出了更加稠密的186个关键点https://www.jianshu.com/p/0de66905d6002.可以实现yolo+facenet的人脸识别项目：

2020-08-18 17:53:06 108

原创 mtcnn+facenet进行图像识别代码（改进）

注：此篇文章属于我在B站up主Bubbliiiing的视频及代码进行温习和改进，做一个动物的图像识别。读取onet.h5文件import h5py#HDF5的读取：f = h5py.File('./model_data/onet.h5','r') #打开h5文件 # 可以查看所有的主键for key in f.keys(): print(f[key].name)打印的结果：/conv1/conv2/conv3/conv4/conv5/conv6-1/conv6-.

2020-08-16 01:22:23 336

原创 2020-08-16

看了机器之心的一篇文章：如何构建自定义人脸识别数据集https://baijiahao.baidu.com/s?id=1604330880883322426&wfr=spider&for=pc很鸡肋，我是想把图片转为xml或者其他格式，他这个完全没用。。。大概我等实践了项目部署摄像头实时观察会有用？Config文件Config文件是通bai过各种程序使用的通用配置du文件。它包含的设置和zhi配置信息以及不同的程序dao可以以不同的格式存储这些数据。这些文件不应该手动打开，但它

2020-08-16 01:03:40 59

原创 2020-08-15起的计划

计划书为了督促自己珍惜时间，好好努力学习，我决定立下个flag！每天一篇学习总结！学习总结单独一个专栏，比如我今天学了什么新知识，收获是什么，看了哪几篇有用的博客或者论文，其次是明天乃至一周的计划是什么。总之，每天一篇，反正我也不是啥名人，也没有粉丝，全当写给自己看了！加油！！！！！！！！！从现在写到项目落地以及考研上岸！距离考研还有800多天！加油，以最完美的过法熬过大学时光...

2020-08-15 20:09:14 109

原创图像处理报错及注意点

1.# img = cv2.imread(“F:/cowface/cowface1/0001.jpg”)主要不要把原来的路径直接加上待更。。。

2020-08-11 16:10:33 474

原创 python批量重命名文件代码

import ospath_name = r’F:\cowface\cowface1’ # 存放待批量修改图片的文件夹路径i = 1 # 起始数字f = open(‘F:\cowface\cowface1\1.txt’) # 生成一个txt文件用于记录原始名和新名for item in os.listdir(path_name):original_name = os.path.join(path_name, item)new_name = os.path.join(path_name,

2020-08-11 15:56:40 93

原创大数据框架的应用

推荐系统基于大数据的综合健康服务平台城市管理，安防领域金融，高频交易，肉眼看不到，一瞬间销售行业：关联购买行为餐饮行业：线下门店布局。电信行业，挽留用户能源行业，智能电表。对用户海量数据进行分析。体育娱乐：投拍影视剧，球队训练计划，安全领域：防御网络攻击，犯罪率，政府领域：选举策略推荐系统：长尾现象，不需要摆货，冷门商品销售比热门还要多。目标群体，找到需要买冷门商品的用户。个性化推荐推荐方法：专家推荐基于统计推荐，容易实现基于内容的推荐协同过滤推荐，最成功的

2020-06-10 17:50:33 217

原创大数据框架---图计算--2020.6.3

#图计算

2020-06-03 18:23:15 192 1

原创大数据框架--数据可视化代码--2020.5.31

index.jsp<%@ page pageEncoding="UTF-8"%><!DOCTYPE html><html><head> <meta charset="utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <title>用户行为分析</title

2020-05-31 19:00:08 784

原创大数据框架-流计算--5.27

hadoop批处理Spark实时批处理Storm流计算框架####流数据计算处理流程：真正实时性，不断推送查询结果。#####适用场景电商Super Mario，处理流程实时交通,防止交通拥堵####框架Storm是Twitter公司开发的一个框架Yahoo S4###Spark Streaming、Samza以及三种流计算框架####Spark Streaming是基于内存的，运行速度快，比MapReduce好很多Samza选择...

2020-05-27 18:15:04 398

原创大数据框架4-29HBase

列式存储，比行式存储效率高olap

2020-04-29 17:43:38 103

原创大数据框架运行的错误---（已解决）hive语句--2020.4.22

要知道group by和order by的用法group by是按照某一类分组order by 一般是排序两者可以共存，几乎缺一不可例题：按省分类汇总（把sql语句补上）Select province,count(province) from loggroup by province;...

2020-04-22 17:55:08 160

原创计算机组成与结构

3.总线通信的四种方式：同步通信：统一的时钟信号异步通信：应答方式半同步通信：差异大就异步存储器：缓存，寄存器，贵，快，内存小3.主存中存储单元地址的分配：高位字节地址为字地址低位字节地址为字地址边界对齐效率高...

2020-03-23 21:30:29 114

原创多元统计分析------------主成成分分析

支持向量机：投到高维的利用相关性，有冗余降维利用特征抽取主要思想：将原始变量做线性加权形成少数几个无关的综合变量，反应变量的大部分信息，当地一个线性组合不能提取更多的信息时，再考虑第二个线性组合·····这些线性组合成为主成分。使用方差描述信息，方差越大，越好总体的主成分：有几个随机变量有几个主成分公式：第一主成分：方差越大，含有的信息量越多...

2020-03-23 11:39:34 227

原创大数据框架-----3.11----2

第三讲：分布式文件系统HDFS3.1 分布式文件系统 3.2 HDFS简介 3.3 HDFS相关概念 3.4 HDFS体系结构 3.5 HDFS存储原理 3.6 HDFS数据读写过程 3.7 HDFS编程实践分布式存储+分布式处理实时性不高，海量流数据，不适合大规模小文件存储，不支持多用户写入及修改文件，不支持多用户写入及修改3.3 HDFS相关概念块...

2020-03-11 22:15:22 82

原创大数据框架-----3.10----2

Apache下的开源软件开源是分布式计算平台各种原研开发hadoop应用两大核心HDFSMapReduce分布式并行编辑框架可以用离线仓库hive pig

2020-03-11 17:10:07 87

原创大数据框架-3.4----1

物联网推动了大数据的进程Dremel 1s1TB的数据大数据的影响：事务理论全样而非抽样效率而非精确相关而非因果大数据的应用：纸牌屋的火爆谷歌流感预测大数据关键技术分布式存储，分布式处理批处理MapReduce批处理计算模式的典型代表Spak实时性比上一个好，可高效迭代计算流计算S4StormFlume图计算...

2020-03-04 17:04:01 149

原创计算机组成与结构-----2020.3.4-4

二、总线特性4.地址信号，数据信号，才能出现有效的读操作总线的性能指标1.总线的宽度，数据线的根数越多传的越多2.标准传输率每秒传输的最大字节数（MBps）3.时钟同步/异步，两者步调一致4.总线复用，缺点，时间长，因为地址线与数据线要转换地址线，数据线是指的功能也就是说信号线数从物理方面来考虑，不是从功能上来考虑四、总线的标准符合标准才可...

2020-03-04 09:40:04 94

原创数据结构-----2020.3.3--------3

8O(o^2)时间复杂度：递归的时间复杂度，用不递归的来表示数据结构：逻辑结构和存储结构存储结构：顺序存储，链式存储（单链表）准确率，召回率不考虑外存和内存的交换三大数据结构：表，图。数两个基本操作顺序存储：数组链式存储：链表线性表，简称表，n>=0具有相同类型的数据元素的有限序列空表：长度等于0L=（）下表i表示该元素在表中的位置或序号。...

2020-03-03 09:38:32 82

原创计算机组成与结构----2020.3.2-----3

//表示放一起除法运算，控制器的基本组成执行指令：PC，首先取指令，要在控制器中执行，一次内存的读的过程取指令：把PC的内容，送到内存，给指令地址的，加1，指向下一条PC 存放当前欲执行指令的地址，具有计数功能（PC）+ 1 PC，构成程序的循序执行。IR存放当前欲执行的指令两个大的阶段。1.取2执行iD是第二部分析指令的过程，叫做指令译码第一步...

2020-03-02 15:57:03 148

原创操作系统----2020.3.2------3

多道批处理：宏观上并行：看起来好像一起运行并发：基本特征第二章：进程资源：CPU，分内存，外存，文件，接口进程：2.1.为什么要引入进程：前驱图和程序的顺序执行：前驱图：用于描述进程之间执行的前后关系前驱后继· 不可能有环有前驱关系的不能并行提高效率程序顺序执行的特征：效率不高单道性多到并发进行，结果不可再现， P352.2....

2020-03-02 09:38:10 154

原创 java程序设计小记-----1

package do225.java;import java.util.*; public class Mainrenjia { public static void main(String args[]) throws Exception { Scanner cin = new Scanner(Sy...

2020-03-01 23:49:06 74

原创操作系统---2020.2.27--------2

分时操作系统：时间片轮转，桥梁，管家，调度。（不如批处理效率高，指的是cpu的利用率）管理：cpu，内存，设备，文件。总起为核，图形接口，命令接口，后备作业队列在内存中1.2.5 实时系统(Real-Time System)及时性，高可靠性应用：飞机导航（硬实时操作系统），温控系统办公系统（分时操作系统）航空订票（软实时）科学计算（批处理）多用户，多任务，...

2020-02-27 11:28:58 155

原创计算机组成结构2020.2.26----2

地址码：累加器和存储器的区别：累加器属于运算器的储存部件，运算结果放到acc还可以传出去，ACC：大型机器加工车间2，计算机解题的过程一般是由cpu送出来的地址，送到MAR（放地址）MDR，读，存储通过数据总线送给CPU存储单元个数=2**mar除数，取数，除，取数乘法，取数，乘x有数据传输通道...

2020-02-26 09:44:59 97

人脸识别终.pptx

吐血总结，描述详细，欢迎大家下载指正。其中包含过程以及详细的总结和分析，并且对比了其他很多算法。也详细说了其中的优点和缺点。

2020-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除