ES 数据批量下载 ES 数据批量下载# ES IPIP=xxx# ES索引名称ES_NAME=xxx# 一次下载数据量ONE_CNT=1000# 获取ES索引当前数据量ES_CNT=`curl -XGET "http://${IP}:9210/${ES_NAME}/_count" -d '{}'`ES_CNT=`echo ${ES_CNT} | cut -d ':' -f2`ES_CNT=`echo ${ES_CNT} | cut -d ',' -f1`CNT_N=$[ES_CNT/$ONE_CNT]
LIUNX加减乘除 LIUNX加减乘除— +:对两个变量做加法。— -:对两个变量做减法。— *:对两个变量做乘法。— /:对两个变量做除法。— **:对两个变量做幂运算。— %:取模运算,第一个变量除以第二个变量求余数。— +=:加等于,在自身基础上加第二个变量。— -=:减等于,在第一个变量的基础上减去第二个变量。— *=:乘等于,在第一个变量的基础上乘以第二个变量。— /=:除等于,在第一个变量的基础上除以第二个变量。— %=:取模赋值,第一个变量对第二个变量取模运算,再赋值给第一个变量。t=ex
SPARK -SQL 小文件问题 SPARK 小文件问题spark -sql 小文件生成原因设置参数减少小文件的生成spark -sql 小文件生成原因spark -sql 提交任务默认shuffle 数量是 200如果数据量过小会造成每一个shuffle 输出的文件数据量过小时间长了就会有大量小文件产生设置参数减少小文件的生成spark-sql adaptive框架解决小文件问题打开自适应框架的开关set spark.sql.adaptive.enabled=true;设置partition的上下限set spar
逻辑回归 逻辑回归逻辑回归主要是为了解决二分问题的什么是分类问题?在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区别一个肿瘤是恶性的还是良性的。如果我们使用线性回归来解决二分问题会怎么样?在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。...
线性回归 线性回归线性回归, 是回归分析中的一种, 其表示自变量 x 与因变量 y 之间存在线性关系.回归分析是从数据出发, 考察变量之间的数量关系, 并通过一定的数学关系式将这种关系描述出来, 再通过关系式来估计某个变量的取值, 同时给出该估计的可靠程度.一元线性回归在回归分析中只涉及一个自变量和一个因变量 称为一元线性回归代价函数由于我们构建模型的最终目的是用来预测, 因此好参数构建的模型应...
liunx 安装 sz rz yum 安装 yum -y install lrzszwget安装 wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20 ./configure && make && make i...
notebook 问题总结 Could not import the lzma module./home/app/python3/lib/python3.7/site-packages/pandas/compat/init.py:85: UserWarning: Could not import the lzma module. Your installed Python is incomplete. Attempt...
机器学习常用算法 机器学习常用算法1.线性回归在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。定义:线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。优点:结果易于理解,计算上不复杂。缺点:对非线性数据拟合不好。适用数据类型:数值型和标称型数据。用法: from sklear...
网上可用数据集汇总 网上可用数据集汇总Kaggle 数据集:每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。Amazon 数据集:该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!UCI机器学习资源库:来...
机器学习概要 机器学习总篇什么是机器学习简单的定义 : 机器学习是通过编程,让计算机可以从数据中总结规律,并根据已有数据进行对未知数据的推测.广义定义机器学习是让计算机具有学习的能力,无需进行明确的编程工程定义计算机程序理由经验 E 学习任务 T ,性能是 P 如果针对任务 T 的性能 P 随着经验 E 不断增长, 则成为机器学习. --汤姆·米切尔 1997机器学习可以用来做什么数据...
liunx 设置自动启动 编写自启脚本赋予执行权限然后启动将脚本命令写入到 /etc/rc.d/rc.local 文件中注意! chmod +x /etc/rc.d/rc.local 而不是/etc/rc.loal 因为此文件只是一个软连接 它指向的最终文件是/etc/rc.d/rc.local...
python 阿里云 安装 python 阿里云 安装下载地址1.下载 选择对应版本2.解压tar -zxvf Python-3.7.5.tgz -C /home/app3.源码安装cd Python-3.7.5/./configure --with-ssl --prefix=安装路径makemake install没有报错即安装成功查看默认python 版本python --version...
阿里云 搭建flink 后 web界面可以访问 但是没有task manager节点存活 现象 : flink web界面可以访问 但是没有task manager节点存活查看启动日志 : 报错 failed to bind to /0.0.0.0:6123, shutting down Netty transport2019-11-07 16:31:45,150 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoi...
Flink 安装 Flink 安装1 .Flink 官网 下载压缩包到本地2.解压tar -zxvf flink-1.9.1-bin-scala_2.11.tgz -C /home/app/3.配置master节点./conf/klink-conf.yaml中配置jobmanager.rpc.address 属性为同一台主机ip4.配置serves将所有的节点ip都写入 ./conf/slaves ...
如何连接阿里云服务器 第一次连接阿里云服务器过程1.根据购买后的界面 选择操作系统版本号和区域2.登录阿里云控制台首页3.点击左侧云服务器ECS4.点击实例 在左上角找到自己的区域 会出现一个正在运行的实例 由于是第一次登录 所以需要将liunx的密码重置 然后重启5.网络与安全 - 密钥对 配置ssh秘钥都配置好之后即可连接...
Xgboost算法 Xgboost简介Xgboost 是Boosting算法中的一种.Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器.Xgboost是一种提升树模型,他可以将许多树模型集成在一起,形成一个很强的分类器.Xgboost所用到的树模型是CART回归树模型Xgboost一般和sklearn一起使用,但是sklearn中没有集成Xgboost,因此需要单独下载检查是否安装了...