自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 liunx 目录循环获取指定文件分卷压缩

【代码】liunx 目录循环获取指定文件分卷压缩。

2022-08-30 16:43:02 235 1

原创 文档windows格式转UNIX格式

文档格式转换

2022-08-16 15:33:54 538

原创 批量下载es主键用于对比

es _id 导出并对比

2022-08-05 15:40:23 394

原创 Liunx挂载软连接

liunx 挂载 软连接

2022-07-11 17:00:20 776

原创 ES 数据批量下载

ES 数据批量下载# ES IPIP=xxx# ES索引名称ES_NAME=xxx# 一次下载数据量ONE_CNT=1000# 获取ES索引当前数据量ES_CNT=`curl -XGET "http://${IP}:9210/${ES_NAME}/_count" -d '{}'`ES_CNT=`echo ${ES_CNT} | cut -d ':' -f2`ES_CNT=`echo ${ES_CNT} | cut -d ',' -f1`CNT_N=$[ES_CNT/$ONE_CNT]

2021-12-13 16:44:53 1656

原创 LIUNX加减乘除

LIUNX加减乘除— +:对两个变量做加法。— -:对两个变量做减法。— *:对两个变量做乘法。— /:对两个变量做除法。— **:对两个变量做幂运算。— %:取模运算,第一个变量除以第二个变量求余数。— +=:加等于,在自身基础上加第二个变量。— -=:减等于,在第一个变量的基础上减去第二个变量。— *=:乘等于,在第一个变量的基础上乘以第二个变量。— /=:除等于,在第一个变量的基础上除以第二个变量。— %=:取模赋值,第一个变量对第二个变量取模运算,再赋值给第一个变量。t=ex

2021-12-13 16:22:37 1317

原创 SPARK -SQL 小文件问题

SPARK 小文件问题spark -sql 小文件生成原因设置参数减少小文件的生成spark -sql 小文件生成原因spark -sql 提交任务默认shuffle 数量是 200如果数据量过小会造成每一个shuffle 输出的文件数据量过小时间长了就会有大量小文件产生设置参数减少小文件的生成spark-sql adaptive框架解决小文件问题打开自适应框架的开关set spark.sql.adaptive.enabled=true;设置partition的上下限set spar

2021-12-06 18:00:35 1505

原创 逻辑回归

逻辑回归逻辑回归主要是为了解决二分问题的什么是分类问题?在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区别一个肿瘤是恶性的还是良性的。如果我们使用线性回归来解决二分问题会怎么样?在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。...

2019-11-20 10:16:58 225

原创 线性回归

线性回归线性回归, 是回归分析中的一种, 其表示自变量 x 与因变量 y 之间存在线性关系.回归分析是从数据出发, 考察变量之间的数量关系, 并通过一定的数学关系式将这种关系描述出来, 再通过关系式来估计某个变量的取值, 同时给出该估计的可靠程度.一元线性回归在回归分析中只涉及一个自变量和一个因变量 称为一元线性回归代价函数由于我们构建模型的最终目的是用来预测, 因此好参数构建的模型应...

2019-11-19 10:38:17 211

原创 python pyplot 画图中文乱码以及正负号问题

python pyplot 画图中文乱码以及正负号问题python 使用pyplot 画图中文不显示问题解决办法:python 使用pyplot 画图中文不显示问题# coding=utf-8import numpy as npimport matplotlib.pyplot as pltx = np.arange(1, 10)y = x# 标题plt.title(u'测试画图'...

2019-11-14 16:03:09 845

原创 pandes : print() 显示不全解决办法

pandes : print() 显示不全解决办法import pandas as pdfilePath_melb_data = '''./csv/melb_data.csv'''melb_data = pd.read_csv(filePath_melb_data)print(melb_data.describe())#解决方法# 显示 列 None-所有列 n - n列 Non...

2019-11-14 16:02:57 894

原创 python Time

Python TimePython 日期与时间什么是Tick?什么是时间元组?获取当前时间获取格式化的时间获取某月日历Time模块日历(Calendar)模块其他相关模块和函数Python 日期与时间Python程序能用很多方式处理日期和时间。转换日期格式是一个常见的例行琐事。Python有一个time and calendar模组可以帮忙。什么是Tick?时间间隔是以秒为单位的浮点小数。...

2019-11-14 16:02:47 96

原创 Python numpy

Python numpy数组属性shape这一数组属性返回一个包含数组维度的元组,它也可以用于调整数组大小。示例1:import numpy as npa = np.array([[1,2,3],[4,5,6]])print a.shape输出如下:(2,3)示例2:import numpy as npa = np.array([[1,2,3],[4,5,6]]...

2019-11-14 16:02:26 74

原创 python 连接 hive 遇到的问题

1.sasl 安装问题下载…2 Ubantu安装sasl问题3 python2.7.6 安装impyla 问题使用python 连接hive 可行性版本 :①: thrift = 0.11.0 ,pyhive = 0.3.0pyhive 没有问题impala 连接报错 'TypeError: expecting list of size 2 for struct args②: th...

2019-11-14 16:02:10 1478 2

原创 windows 系统下 coursera 视频无法播放问题

windows 系统下 coursera 视频无法播放问题打开 C:\windows\System32\driver\etc\hosts 文件加入:52.84.246.90 d3c33hcgiwev3.cloudfront.net52.84.246.252 d3c33hcgiwev3.cloudfront.net52.84.246.144 d3c33hcgiwev3.c...

2019-11-14 16:01:47 370

原创 kaggle - House Prices 导入 numpy 提示 numpy.ufunc size changed, may indicate binary incompatibility

kaggle - House Prices 导入 numpy 提示 numpy.ufunc size changed, may indicate binary incompatibility原因解决原因由于numpy版本升级导致解决将numpy 版本降到1.15.4

2019-11-14 16:01:37 152

原创 缺失值处理

缺失值处理数据缺失问题处理方式:当列数据缺失严重的时候 --删除缺失值列data_without_missing_values = original_data.dropna(axis=1)通常情况下我们需要将训练数据和测试数据一起处理,因此当训练数据由变动时测试数据一样需要处理.cols_with_missing = [col for col in original_data.c...

2019-11-14 16:01:14 129

原创 Xgboost算法

Xgboost简介Xgboost 是Boosting算法中的一种.Boosting算法的思想是将许多弱分类器集成在一起,形成一个强分类器.Xgboost是一种提升树模型,他可以将许多树模型集成在一起,形成一个很强的分类器.Xgboost所用到的树模型是CART回归树模型Xgboost一般和sklearn一起使用,但是sklearn中没有集成Xgboost,因此需要单独下载检查是否安装了...

2019-11-14 16:00:56 547

原创 如何连接阿里云服务器

第一次连接阿里云服务器过程1.根据购买后的界面 选择操作系统版本号和区域2.登录阿里云控制台首页3.点击左侧云服务器ECS4.点击实例 在左上角找到自己的区域 会出现一个正在运行的实例 由于是第一次登录 所以需要将liunx的密码重置 然后重启5.网络与安全 - 密钥对 配置ssh秘钥都配置好之后即可连接...

2019-11-14 16:00:16 638

原创 Flink 安装

Flink 安装1 .Flink 官网 下载压缩包到本地2.解压tar -zxvf flink-1.9.1-bin-scala_2.11.tgz -C /home/app/3.配置master节点./conf/klink-conf.yaml中配置jobmanager.rpc.address 属性为同一台主机ip4.配置serves将所有的节点ip都写入 ./conf/slaves ...

2019-11-14 15:59:49 5415

原创 阿里云 搭建flink 后 web界面可以访问 但是没有task manager节点存活

现象 : flink web界面可以访问 但是没有task manager节点存活查看启动日志 : 报错 failed to bind to /0.0.0.0:6123, shutting down Netty transport2019-11-07 16:31:45,150 INFO org.apache.flink.runtime.entrypoint.ClusterEntrypoi...

2019-11-14 15:59:31 3053

原创 Python windows 安装

Python 下载地址 : https://www.python.org/校验:cmd注意 需要下载2.X 和3.X 版本的python

2019-11-14 15:59:03 59

原创 python 阿里云 安装

python 阿里云 安装下载地址1.下载 选择对应版本2.解压tar -zxvf Python-3.7.5.tgz -C /home/app3.源码安装cd Python-3.7.5/./configure --with-ssl --prefix=安装路径makemake install没有报错即安装成功查看默认python 版本python --version...

2019-11-14 15:58:42 279

原创 liunx 设置自动启动

编写自启脚本赋予执行权限然后启动将脚本命令写入到 /etc/rc.d/rc.local 文件中注意! chmod +x /etc/rc.d/rc.local 而不是/etc/rc.loal 因为此文件只是一个软连接 它指向的最终文件是/etc/rc.d/rc.local...

2019-11-14 15:58:23 75

原创 python : ipython notebook 安装

python : ipython notebook 安装IPython notebook目前已经成为用Python做教学、计算、科研的一个重要工具。关于其发展,以及介绍,感兴趣可以找文献阅读。本文主要讲解的是它的基本用法和技巧。IPython Notebook使用浏览器作为界面,向后台的IPython服务器发送请求,并显示结果。Ipython使用了websocket,它是不支持IE的.一般用...

2019-11-14 15:57:50 178

原创 Jupyter Notebook自动化提醒

windows+Rcmd 回车python3 输入pip3 install jupyter_contrib_nbextensions确保 Jupyter 关闭状态下输入:jupyter contrib nbextension install --user --skip-running-check启动Jupyterjupyter notebook相对之前会在首页多出来一个 Nbex...

2019-11-14 15:57:29 325

原创 网上可用数据集汇总

网上可用数据集汇总Kaggle 数据集:每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。Amazon 数据集:该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!UCI机器学习资源库:来...

2019-11-14 15:57:15 668

原创 机器学习概要

机器学习总篇什么是机器学习简单的定义 : 机器学习是通过编程,让计算机可以从数据中总结规律,并根据已有数据进行对未知数据的推测.广义定义机器学习是让计算机具有学习的能力,无需进行明确的编程工程定义计算机程序理由经验 E 学习任务 T ,性能是 P 如果针对任务 T 的性能 P 随着经验 E 不断增长, 则成为机器学习. --汤姆·米切尔 1997机器学习可以用来做什么数据...

2019-11-14 15:56:57 307

原创 机器学习常用算法

机器学习常用算法1.线性回归在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。定义:线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。优点:结果易于理解,计算上不复杂。缺点:对非线性数据拟合不好。适用数据类型:数值型和标称型数据。用法: from sklear...

2019-11-14 15:56:39 312

原创 liunx 安装 sz rz

yum 安装 yum -y install lrzszwget安装 wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gztar zxvf lrzsz-0.12.20.tar.gz && cd lrzsz-0.12.20 ./configure && make && make i...

2019-11-14 15:56:21 99

原创 notebook 问题总结

Could not import the lzma module./home/app/python3/lib/python3.7/site-packages/pandas/compat/init.py:85: UserWarning: Could not import the lzma module. Your installed Python is incomplete. Attempt...

2019-11-14 15:54:10 389

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除