自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 资源 (1)
  • 收藏
  • 关注

原创 大数据复习1

虚拟化技术是伴随着计算机的出现而产生和发展起来的,虚拟化意味着对计算机资源的抽象。虚拟化技术已经成为构建云计算环境的一项关键技术。服务器虚拟化存储虚拟化网络虚拟化客户-服务器模式只要保证master正常工作,很容易随意添加slave, 硬盘存储空间无限大。统一存储空间,统一文件接口整个集群就像是一台机器、一片云,硬盘显示为统一存储空间,文件接口统一。为提高扩展性,HDFS采用了master/slave架构来构建分布式存储集群,这种架构很容易向集群中任意添加或删除slave。namenode统一管理所有sla

2022-06-02 15:36:36 126

原创 Jupyter 无反应无法打开

pip install tornado --user --ignore-installed -i https://pypi.tuna.tsinghua.edu.cn/simple然后打开了,撒花~~~

2022-03-03 20:19:48 361

原创 深度学习二

1.下载和自己电脑匹配的torch:pip install torch==1.5.1+cu92 torchvision==0.6.1+cu92 -f https://download.pytorch.org/whl/torch_stable.html

2021-07-08 14:41:40 118

原创 机器学习五---用户流失

1.将DataFrame所有元素替换的方法参考:https://www.jianshu.com/p/2557a805211f注意:df1.replace("女",0,inplace=True):replace替换只能是完全匹配才可以,如果不完全匹配无法替换,且不会报错。可以把语句加一个参数:df1.iloc[:,5:15]=df1.iloc[:,5:15].replace("准","5",regex=True)(好像还得赋个值,要不然整不了)2.pandas显示一列中的不同值:比如说有一

2021-06-25 17:26:03 109

原创 机器学习四

特征工程的方法:1.特征选择移:移除低方差的特征VarianceThresholdThreshold(设置水平线,阈值)2.单变量特征选择:SelectKBest移除最高之外的(参数k=n1)SelectPercentile百分比之前3.基于Tree的特征选取,基于树的estimators计算重要特征。列出属性重要程度,()4.pipeline5.网格搜索实例分析:客户价值分析:显示DataFrame的相信信息:info()方法sample(5)抽样

2021-06-24 11:27:40 60

原创 机器学习实训三

1.如果第一行是数据不是列名,读取csv文件的时候要让header=None。默认header=02.pandas 取出表中一列数据所有的值并转换为array类型的方法:# -*-coding: utf-8 -*-import pandas as pd#读取csv文件df=pd.read_csv('A_2+20+DoW+VC.csv')#求‘ave_time'的平均值aveTime=df['ave_time'].mean()#把ave_time这列的缺失值进进行填充,填充的方法是按这一

2021-06-23 17:29:59 232

原创 机器学习实训

1.merge:列的类型要一样:.astype("str")2.join:(连列名都得一样才能关联)3.conbine_first(数据合并)使两列的空值减少4.把索引干掉,有重复值5.duplicated()标记为false没有重复(布尔索引)6.判断字符重复自己写一个equse函数,来判断,矢量化运算。7.防止中文编码有问题:mysql -u root -p --default-character-set=utf8use dbnamesource /...

2021-06-22 17:34:04 259

原创 scala

注意事项:1.cmd看scala的版本,然后build path之后加入scala的library2.run congur。。,上边参考

2021-01-08 10:08:37 176 2

原创 Kafka学习

PATH=$KAFKA_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport KAFKA_HOME=/home/hadoop/app/kafka_2.11-2.4.1kafka-server-start.sh /home/hadoop/app/kafka_2.11-2.4.1/config/server.propertieskafka要集群中过半开启kafka启动:我这里的安装目录是:/home/b.

2021-01-07 11:51:07 73

原创 虚拟机搭建

我是复制的同学的虚拟机搭建的,需要注意配置成静态net在root的家目录下运行1.查看集群ip地址的分部vim /etc/hosts2.修改ip到与自己网段相同的同一网段首先 cd /etc/sysconfig/network-scripts/然后ls,查看ifcfg-eno16777736 类型的文件,然后按照老师的文件配置3。如果发现ifconfig没了,就执行以下四个语句(见收藏夹)...

2021-01-06 11:24:20 148 5

原创 数据分析之客户对象---kmeans

数据分析的步骤:1.用pandas读取数据2.用data.describe()方法查看数据的详细3.数据预处理:缺失值处理 data.dropna()。如果数据量大,有缺失的数据直接删除 data.fillna(data.median(),inplace=True)如果数据量小,有缺失值用平均值填充 2.归一化from sklearn import preprocessingscaler = preprocessing.StandardSca...

2020-12-02 21:20:13 331

原创 Python——各种方法的使用(尽量每天更新)——from(数据挖掘课)

一、读取数据1.在同一项目下,可以用:".\XXX"data=pd.read_csv(“.\XXX.dat,header=None”)#表示无表头2.pandas直接读取数据之后为DataFrame类型(data)只要列数一样就可以调用data.columns=['XXX','XXX']二、使代码写起来简单的计算方法1.shape:可以利用这个函数进行数据的便利,返回值位长度(整数数值)就不用len(XX)了data.shape[0]#表示第一维的长度,也就是行数.

2020-11-19 21:39:46 156

原创 javaweb

404被占用:netstat -ano|findstr "8080"查看终止

2020-11-14 21:26:49 67 4

原创 mysql安装

mysql553305这个不能选,要不然最后一步下不下来

2020-11-07 11:06:20 61 1

转载 R语言

路径配置:包括工程位置和包的位置,亲测好用https://blog.csdn.net/mona_sunshine/article/details/53042413?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFro

2020-10-10 20:45:29 96

原创 2020-08-18

含泪把人脸识别的总结PPT整好了。暂时和深度学习告一段落。我要复习了,资源在我主页可以找到。傍晚安。今天学习汇报就到这里结束了。要看录屏学习了。。苦啊

2020-08-18 18:05:07 80

原创 2020-08-17

1.我今天才知道人脸数据集是有标注点的。比如:Wider Facial Landmark in the Wild(WFLW),它提供了98个关键点。越是最近标注点越多,越精确,人脸关键点已经达到168个点了。所以我们做的动物面部识别要尽量整上关键点。106个关键点标注是商汤科技提出的在业内被广泛采用的方案。后续又在106个关键点的基础上提出了更加稠密的186个关键点https://www.jianshu.com/p/0de66905d6002.可以实现yolo+facenet的人脸识别项目:

2020-08-18 17:53:06 108

原创 mtcnn+facenet进行图像识别代码(改进)

注:此篇文章属于我在B站up主Bubbliiiing的视频及代码进行温习和改进,做一个动物的图像识别。读取onet.h5文件import h5py#HDF5的读取:f = h5py.File('./model_data/onet.h5','r') #打开h5文件 # 可以查看所有的主键for key in f.keys(): print(f[key].name)打印的结果:/conv1/conv2/conv3/conv4/conv5/conv6-1/conv6-.

2020-08-16 01:22:23 336

原创 2020-08-16

看了机器之心的一篇文章:如何构建自定义人脸识别数据集https://baijiahao.baidu.com/s?id=1604330880883322426&wfr=spider&for=pc很鸡肋,我是想把图片转为xml或者其他格式,他这个完全没用。。。大概我等实践了项目部署摄像头实时观察会有用?Config文件Config文件是通bai过各种程序使用的通用配置du文件。它包含的设置和zhi配置信息以及不同的程序dao可以以不同的格式存储这些数据。这些文件不应该手动打开,但它

2020-08-16 01:03:40 59

原创 2020-08-15起的计划

计划书为了督促自己珍惜时间,好好努力学习,我决定立下个flag!每天一篇学习总结!学习总结单独一个专栏,比如我今天学了什么新知识,收获是什么,看了哪几篇有用的博客或者论文,其次是明天乃至一周的计划是什么。总之,每天一篇,反正我也不是啥名人,也没有粉丝,全当写给自己看了!加油!!!!!!!!!从现在写到项目落地以及考研上岸!距离考研还有800多天!加油,以最完美的过法熬过大学时光...

2020-08-15 20:09:14 109

原创 图像处理报错及注意点

1.# img = cv2.imread(“F:/cowface/cowface1/0001.jpg”)主要不要把原来的路径直接加上待更。。。

2020-08-11 16:10:33 474

原创 python批量重命名文件代码

import ospath_name = r’F:\cowface\cowface1’ # 存放待批量修改图片的文件夹路径i = 1 # 起始数字f = open(‘F:\cowface\cowface1\1.txt’) # 生成一个txt文件用于记录原始名和新名for item in os.listdir(path_name):original_name = os.path.join(path_name, item)new_name = os.path.join(path_name,

2020-08-11 15:56:40 93

原创 大数据框架的应用

推荐系统基于大数据的综合健康服务平台城市管理,安防领域金融,高频交易,肉眼看不到,一瞬间销售行业:关联购买行为餐饮行业:线下门店布局。电信行业,挽留用户能源行业,智能电表。对用户海量数据进行分析。体育娱乐:投拍影视剧,球队训练计划,安全领域:防御网络攻击,犯罪率,政府领域:选举策略推荐系统:长尾现象,不需要摆货, 冷门商品销售比热门还要多。目标群体,找到需要买冷门商品的用户。个性化推荐推荐方法:专家推荐 基于统计推荐,容易实现 基于内容的推荐 协同过滤推荐,最成功的

2020-06-10 17:50:33 217

原创 大数据框架---图计算--2020.6.3

#图计算

2020-06-03 18:23:15 192 1

原创 大数据框架--数据可视化代码--2020.5.31

index.jsp<%@ page pageEncoding="UTF-8"%><!DOCTYPE html><html><head> <meta charset="utf-8" /> <meta name="viewport" content="width=device-width, initial-scale=1.0" /> <title>用户行为分析</title

2020-05-31 19:00:08 784

原创 大数据框架-流计算--5.27

hadoop批处理Spark实时批处理Storm流计算框架####流数据计算处理流程:真正实时性,不断推送查询结果。#####适用场景电商Super Mario,处理流程实时交通,防止交通拥堵####框架Storm是Twitter公司开发的一个框架Yahoo S4###Spark Streaming、Samza以及三种流计算框架####Spark Streaming是基于内存的,运行速度快,比MapReduce好很多Samza选择...

2020-05-27 18:15:04 398

原创 大数据框架4-29HBase

列式存储,比行式存储效率高olap

2020-04-29 17:43:38 103

原创 大数据框架运行的错误---(已解决)hive语句--2020.4.22

要知道group by和order by的用法group by是按照某一类分组order by 一般是排序两者可以共存,几乎缺一不可例题:按省分类汇总(把sql语句补上)Select province,count(province) from loggroup by province;...

2020-04-22 17:55:08 160

原创 计算机组成与结构

3.总线通信的四种方式:同步通信:统一的时钟信号异步通信:应答方式半同步通信:差异大就异步存储器:缓存,寄存器,贵,快,内存小3.主存中存储单元地址的分配:高位字节地址为字地址低位字节地址为字地址边界对齐效率高...

2020-03-23 21:30:29 114

原创 多元统计分析------------主成成分分析

支持向量机:投到高维的利用相关性,有冗余降维利用特征抽取主要思想:将原始变量做线性加权形成 少数几个无关的综合变量,反应变量的大部分信息,当地一个线性组合不能提取更多的信息时,再考虑第二个线性组合·····这些线性组合成为主成分。使用方差描述信息,方差越大,越好总体的主成分:有几个随机变量有几个主成分公式:第一主成分:方差越大,含有的信息量越多...

2020-03-23 11:39:34 227

原创 大数据框架-----3.11----2

第三讲:分布式文件系统HDFS3.1 分布式文件系统 3.2 HDFS简介 3.3 HDFS相关概念 3.4 HDFS体系结构 3.5 HDFS存储原理 3.6 HDFS数据读写过程 3.7 HDFS编程实践分布式存储+分布式处理实时性不高,海量流数据,不适合大规模小文件存储,不支持多用户写入及修改文件,不支持多用户写入及修改3.3 HDFS相关概念块...

2020-03-11 22:15:22 82

原创 大数据框架-----3.10----2

Apache下的开源软件开源是分布式计算平台各种原研开发hadoop应用两大核心HDFSMapReduce分布式并行编辑框架可以用离线仓库hive pig

2020-03-11 17:10:07 87

原创 大数据框架-3.4----1

物联网推动了大数据的进程Dremel 1s1TB的数据大数据的影响:事务理论全样而非抽样 效率而非精确 相关而非因果大数据的应用:纸牌屋的火爆 谷歌流感预测大数据关键技术 分布式存储,分布式处理批处理MapReduce批处理计算模式的典型代表Spak实时性比上一个好,可高效迭代计算流计算S4StormFlume图计算...

2020-03-04 17:04:01 149

原创 计算机组成与结构-----2020.3.4-4

二、总线特性4.地址信号,数据信号,才能出现有效的读操作总线的性能指标1.总线的宽度,数据线的根数越多传的越多2.标准传输率 每秒传输的最大字节数(MBps)3.时钟同步/异步,两者步调一致4.总线复用,缺点,时间长,因为地址线与数据线要转换地址线,数据线是指的功能也就是说信号线数从物理方面来考虑,不是从功能上来考虑四、总线的标准符合标准才可...

2020-03-04 09:40:04 94

原创 数据结构-----2020.3.3--------3

8O(o^2)时间复杂度:递归的时间复杂度,用不递归的来表示数据结构:逻辑结构和存储结构存储结构:顺序存储,链式存储(单链表)准确率,召回率不考虑外存和内存的交换三大数据结构:表,图。数两个基本操作顺序存储:数组链式存储:链表线性表,简称表,n>=0具有相同类型的数据元素的有限序列空表:长度等于0L=() 下表i表示该元素在表中的位置或序号。...

2020-03-03 09:38:32 82

原创 计算机组成与结构----2020.3.2-----3

//表示放一起除法运算,控制器的基本组成执行指令:PC,首先取指令,要在控制器中执行,一次内存的读的过程取指令: 把PC的内容,送到内存,给指令地址的,加1,指向下一条PC 存放当前欲执行指令的地址, 具有计数功能(PC)+ 1 PC,构成程序的循序执行。IR存放当前欲执行的指令两个大的阶段。1.取2执行iD是第二部分析指令的过程,叫做指令译码第一步...

2020-03-02 15:57:03 148

原创 操作系统----2020.3.2------3

多道批处理:宏观上并行:看起来好像一起运行并发:基本特征第二章:进程资源:CPU,分内存,外存,文件,接口进程:2.1.为什么要引入进程:前驱图和程序的顺序执行:前驱图:用于描述进程之间执行的前后关系前驱后继· 不可能有环 有前驱关系的不能并行 提高效率程序顺序执行的特征:效率不高 单道性多到并发进行,结果不可再现, P352.2....

2020-03-02 09:38:10 154

原创 java程序设计小记-----1

package do225.java;import java.util.*; public class Mainrenjia { public static void main(String args[]) throws Exception { Scanner cin = new Scanner(Sy...

2020-03-01 23:49:06 74

原创 操作系统---2020.2.27--------2

分时操作系统:时间片轮转,桥梁,管家,调度。(不如批处理效率高,指的是cpu的利用率)管理:cpu,内存,设备,文件。总起为核,图形接口,命令接口,后备作业队列在内存中1.2.5 实时系统(Real-Time System)及时性,高可靠性应用:飞机导航(硬实时操作系统),温控系统办公系统(分时操作系统)航空订票(软实时)科学计算(批处理)多用户,多任务,...

2020-02-27 11:28:58 155

原创 计算机组成结构2020.2.26----2

地址码:累加器和存储器的区别:累加器属于运算器的储存部件,运算结果放到acc还可以传出去,ACC:大型机器加工车间2,计算机解题的过程一般是由cpu送出来的地址,送到MAR(放地址)MDR,读,存储通过数据总线送给CPU存储单元个数=2**mar除数,取数,除,取数乘法,取数,乘x有数据传输通道...

2020-02-26 09:44:59 97

人脸识别终.pptx

吐血总结,描述详细,欢迎大家下载指正。 其中包含过程以及详细的总结和分析,并且对比了其他很多算法。也详细说了其中的优点和缺点。

2020-08-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除