- 博客(37)
- 收藏
- 关注
原创 地质测井解释
(1)识别孔隙地层,确定孔隙度φN因为中子孔隙度测井是一种通过地层含氢量来反映充满液体的孔隙大小的测井方法。所以:1.探测对象声波测井是探测井内岩层声波时差的变化。补偿声波测井是测量所钻开地层的声速。补偿测量能消除恶劣井眼条件的影响。测量的传播时间可用来进行地层对比和计算地层孔隙度。应用:·确定含流体地层的孔隙度;在恶劣井眼条件下采集准确孔隙度资料;地层对比;采集地层速度资料;结合其它孔隙度资料识别岩性;结合其它孔隙度资料确定次生孔隙度;从波形特征或变密度显示识别裂缝2.地质应用(1)确定岩层
2024-03-10 11:17:09 3423
原创 机器学习-支持向量机
01 支持向量机概述支持向量机(SupportVectorMachine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalizedlinearclassifier),其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。02 线性可分支持向量机03 线性支持
2022-01-12 10:30:06 200
原创 机器学习-集成学习
01 集成学习方法概述Bagging:从训练集中进行子抽样组成每个基模型所需要的自己训练集,对所有基模型预测的结果进行综合产生最终的预测结果:训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果02 AdaBoost和GBDT算法03 XGBoost04 LightGBM...
2022-01-11 17:20:11 491
原创 机器学习-决策树
决策树原理⚫决策树:从训练数据中学习得出一个树状结构的模型。⚫决策树属于判别模型。⚫决策树是一种树状结构,通过做出一系列决策(选择)来对数据进行划分,这类似于针对一系列问题进行选择。⚫决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。决策树算法是一种归纳分类算法,它通过训练数据学习,挖掘出有用的规则**,用于对新数据进行预测**决策树算法属于监督学习方法决策树归纳的基本算法是贪心算法,自顶向下来构建决
2021-12-30 20:20:04 1511
原创 机器学习-KNN算法
距离度量1、欧式距离:欧几里得度量(EuclideanMetric)(也称欧氏距离)是一个通常采用的距离定义,指在mmm维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。简单说就是两点之间直线的距离(二维)公式如下:d(x,y)=∑t(xi−yi)2d(x,y)=\sqrt{\sum_{t}(x_{i}-y_{i})^2}d(x,y)=t∑(xi−yi)22、曼哈顿距离:想象你在城市道路里,要从一个十字路口开车到另
2021-12-29 14:49:38 1004
原创 机器学习-机器学习实战
数据集划分训练集:帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集:也叫开发集,用来做模型的选择,即模型的最终优化及确定,用来辅助我们的模型的构建,即训练超参数,可选测试集:为测试已经训练好的模型的精确度。数据不平衡的处理:数据不平衡是指数据集中各类样本数量不均衡的情况,常用的处理方法有采用和代价敏感学习代价敏感学习:代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模型进行学习的一种方法评价指标正则化、偏差和方差为什么要进行标准化和归一化
2021-12-28 15:04:35 2319
原创 机器学习-朴素贝叶斯
01贝叶斯方法01 贝叶斯分类:贝叶斯分类算法的总称,这类算法均以贝叶斯定理为基础02 先验概率:根据以往的经验分析得到的概率,我们用P(Y)来代表在没有训练数据前假设Y拥有的初始概率03 后验概率:根据已经发生的事件来分析得到的概率。以P(Y|X)代表假设X成立的情况下观察到Y数据的概率,因为它反映了在看到训练数据X后Y成立的置信度。04 联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。X和Y的联合概率表示为P(X,Y)、P(XY)或者P(X)02朴素贝叶斯原理03朴素贝
2021-12-26 21:01:09 368
原创 机器学习-线性学习
一、线性回归1 回归和分类的区别在于要预测的目标是连续值定义:给定由m个属性描述的样本x=(x1,x2…xn),其中xi是x在第i个属性上的取值,线性回归试图学得一个通过属性值的线性组合来进行预测函数:f(x)=w1x1+w2x2+......+wmxm+bf(x)=w_{1}x_{1}+w_{2}x_{2}+......+w_{m}x_{m}+bf(x)=w1x1+w2x2+......+wmxm+b一般的向量的形式是f(x)=wtx+bf(x)=w^{t}x+bf(x)=wtx+
2021-12-23 20:19:50 608
原创 机器学习-模型评估
模型评估一、评估方法在学习得到一个比较好的模型之前需要对这个模型进行性能的测试、评估,所以我们需要一个测试集(testing set)来测试模型的好坏,主要测试这个模型对新样本的泛化能力,然后以测试集上的测试误差作为泛化误差的近似值。测试集要和训练集样本尽力互斥给定一个数据集,将数据集拆分成训练集S和测试集T,通常,通常的做法有留出法、交叉验证法、自助法。1 留出法 :直接将数据集划分为两个互斥集合训练/测试集划分要尽可能保持数据分布的一致性一般若干次随机划分、重复实验取平均值训练/
2021-12-23 16:54:15 463
原创 Hive 核心知识点
--初始化Hive的Metastore命令bin/ schematool -dbType mysql -initSchema --hive启动--1 bin/hive--启动hive需要先启动hadoop---先hiveserver2--后 bin/beeline -u jdbc:hive2://localhost:10000--关闭防火墙systemctl stop firewalld.service--hdfs文件授权hadoop fs -chmod 777 /tmp/hadoop
2021-10-29 20:32:07 816
原创 yarn知识点
一、YARN主要负责集群的管理和调度,支持主从架构,主节点最多可以有2个,从节点可以有多个。其中:ResourceManager是主节点,主要负责集群资源的分配和调度。NodeManager是从节点,主要负责当前机器资源管理。二、yarn主要管理内存和CPU这两种资源类型三、YARN中支持三种调度器1:FIFO Scheduler :先进先出(first in,first out)调度策略2:Capacity Scheduler:FIFO Scheduler的多队列版本3:FairSched
2021-10-23 11:16:22 879
原创 Mapreduce
一、hadoop序列化的特点:1、紧凑:高效使用存储空间2、快速:读写数据的额外开销小3、可扩展:随着通信协议的升级而升级4、互操作:支持多语言的交互二、hadoop小文件处理方式:每一个小文件都是一个Block,都会产生一个InputSplit,最终每一个小文件都会产生一个map任务。解决方案:选择一个容器,将这些小文件组织起来统一存储,HDFS提供了两种类型的容器,分别是SequenceFile 和 MapFile。SequenceFile 其实可以理解为把很多小文件压缩成一个大的压缩包了
2021-10-20 14:08:23 124
原创 HDFS知识点
一、HDFS支持主从结构,NameNode支持多个,DataNode也支持多个二、NameNode主要包含一下文件:fsimage、edits、seen_txid、VERSION三、查看fsimage文件:hdfs oiv -p XML -i 文件名 -o四、secondarynamenode 这个进程就是负责定期把edits中的内容合并到fsimage中,这个合并操作称为checkpoint,在合并的时候会对edits中的内容进行转换,生成新的内容保存到fsimage文件中五、Block默认是
2021-10-15 09:40:54 121
原创 Hadoop-HDFS
第1章 HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)第2章 HDFS的Shell操作(开发重点)1.基本语法bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令dfs是fs的实现类。2.命令大全[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile … ][-cat [-ignoreCrc] …][
2021-08-17 16:10:16 412
原创 Hadoop-Shell命令
Linux常用的命令(netstat,top,lsblk,find,ps,chkconfig)Linux查看内存,磁盘存储,io读写,端口占用,进程topdf -lhNetstat -tunlpps -aus |grep 进程名iotopshellcat /etc/shells查看命令echo $SHELL修改权限的命令chmod 777Centos默认的解析器是bashbash和sh的关系bash命令是sh命令的超集,大多数sh脚本都可以在bash下运行shell中
2021-08-09 21:47:15 175
原创 Hive应用
Hive数据仓库分层按照数据流入流出的过程,数据仓库架构可分为三层——源数据(ODS)、数据仓库(DW)、数据应用(APP)Hive介绍Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似SQL的查询功能Hive可以存储很大量的数据集,可以直接访问存储在Apache Hdfs或者其他数据库存储系统中的文件Hive支持Mapreduce、Spark、Tez这三种分布式计算引擎Hive架构Hive计算引擎Hive安装启动cd
2021-08-06 21:02:46 323
原创 梯度下降法
梯度下降(在一个函数中找到一个值x,使得函数y的倒数倒数等于0,(找到一个x,原函数y有极大值和极小值,这里取的是极小值))随机生成一个函数f(x)=(x−2.5)2−1 f(x) = (x-2.5)^2-1f(x)=(x−2.5)2−1第一步,求导f(x)′=2∗(x−2.5) f(x)\prime = 2*(x-2.5)f(x)′=2∗(x−2.5)代码如下def dJ(theta): return 2 * (theta - 2.5)原函数也用代码写出来def J(theta
2021-08-05 21:21:33 79
原创 HDFS的基本命令
HDFS分布式文件系统Hadoop:HDFS(分布式文件系统)解决海量数据存储MAPREDUCE (分布式运算编程框架)解决海量数据计算yarn(作业调度和集群资源管理框架)解决资源****任务调度Hadoop框架内容HDFS模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据SecondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块 yarn:Resourc
2021-08-05 21:17:32 197
原创 线性回归算法
简单线性回归简单线性回归包含一个自变量(x)和一个因变量(y),如果包含两个以上的自变量,则称作多元回归分析(multiple regression),被用来描述因变量(y)和自变量(X)以及偏差(error)之间关系的方程叫做回归模型公式:∑m=0m(y(i)−a∗x(i)−b)2,一元线性回归算法公式 \sum_{m=0}^{m} ({y^{(i)} -a*x^{(i)}-b)^2} \text {,一元线性回归算法公式} m=0∑m(y(i)−a∗x(i)−b)2,一元线性回归算法公式
2021-07-30 20:53:11 193
原创 基础KNN算法
欧式距离计算公式m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。当需要使用分类算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了...
2021-07-27 19:49:11 565
原创 Flask小程序订餐系统
Flask安装第一个flask项目from flask import Flaskapp = Flask(__name__)@app.route('/')def hello_world(): return 'Hello World!'if __name__ == '__main__': app.run()路由*1. 路由的第一种实现方法:@app.route('/api')def hello(): return 'Hello'@app.ro
2021-07-16 19:10:13 367
原创 微信小程序基本框架
第一章 绪论1.1数据库系统概述1.1.1数据库的4个基本概念数据:描述事务的符号记录, 数据的含义称为数据的语义,数据与其语义是不可分割的。项目1项目2项目3 计划任务 完成任务
2021-07-15 19:15:23 465
原创 os.listdir() 方法
os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 ‘.’ 和’…’ 即使它在文件夹中import os, sys打开文件path = “/var/www/html/”dirs = os.listdir( path )输出所有文件和文件夹for file in dirs:print (file)...
2021-01-20 10:32:41 213
原创 lambda、函数
1、filter() 函数用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用 list() 来转换。该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判断,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。在这里插入代码片# -*- coding: utf-8 -*-# @Time : 2021/1/19 0019# @Author : yang# @Email : 2635681517@qq.com#
2021-01-19 15:48:57 177 2
原创 python中利用os基本模块创建
1、os.getcwd() 得到当前目录2、os.sep 得到目录形式3、os.listdir() 得到当前目录下的文件4、os.mkdir(‘新创建的文件名’) 在当前目录下创建一个新的文件夹5、os.rename(‘文件夹’,‘新文件夹’)修改文件夹名6、os.rmdir(‘文件夹名’) 删除文件夹,这个文件名碧血存在7、os.path.isdir(‘文件’) 判断是否是文件夹8、os.path.isfile(‘文件’) 判断是否是文件9、os.path.exists(‘文件’) 判断文
2021-01-16 17:57:46 126
原创 元组和列表的区别
#元组和列表的区别列表元组内容允许扩展内容不可变手内存存储动态变化创建后固定不变效率较低效率最高运行时数据需要变更时使用用于保存稳定不变的数据保存天气数据、股市数据保存国家名、元素周期表...
2021-01-12 16:11:45 192
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人