自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (1)
  • 收藏
  • 关注

原创 实现:crontab定时任务定时到秒

示例如下:每天12点30分 运行程序30 12 * * * nohup /usr/bin/python-u /home/test.py >test.log2>&1 &如下: 每天12点30分30秒 运行程序30 12 * * * sleep 30;nohup /usr/bin/python-u /home/test.py >test.log2>&1 &...

2021-09-26 17:57:34 672 2

原创 CDH集群时间同步 (测试 仿真 生产三个集群均实现)

背景某不知名小券商,集群设置的定时任务总是在非交易日运行,定位到是集群时间不一致导致于是着手对公司三套CDH集群(测试、仿真、生产)的时间进行同步设置搜索参考了很多时间同步相关的博客,主要是使用ntp时间同步软件进行,这里不在多说,下面介绍一种较为简单粗暴的方式解决过程:1、角色说明服务器 A:可用来同步时间的时间服务器,即它的时间是准确的服务器B:CDH集群中充当时间服务器节点,因为B要同步A的时间服务器其他节点:即CDH集群中除B之外的所有节点2、具体过程确保1中

2021-09-26 17:46:18 761

原创 实现:linux访问windows共享文件夹

背景确保在linux能访问windows机器 网络联通在Linux机器上执行 telnet IP 445 测试是否联通如:telnet10.0.22.15 4451、进入linux机器 /dev 目录创建目录cd /devmkdir /mnt/testdir2、进入到创建的目录cd /mnt/testdir3、执行下行命令mount -o username=yonghu,password=mima //10.0.22.15/dir1/dir2 /mnt/tes..

2021-09-18 10:32:28 2567

原创 干货“python基础之元组与集合“

今日分享:python基础之元组与集合相对于前面介绍的几种数据类型,元组、集合的内容相对较少,所以就放在一块来介绍:元组元组(tuple)是由任意类型元素组成的序列,这一点和列表类似,但不同点在于元组是不可变的。元组的创建是使用 () 来创建的,()空元组是最简单的元组,当创建包含一个或多个元组时,每一个元素后面都需要跟上一个逗号,其实在创建非空元组时,是不需要括号的,但是网上的很多资料教程中都默认在创建元组时直接输入括号,然后在括号中添加元素,下面的例子可以看到>>&

2021-08-29 20:45:26 159

原创 干货“python基础之字典“

# 数据分析必须对时间敏感,交易要关注成功还是失败# 业务知识积累## 名词解释#### 1.双融交易股票前有个融字是指这个股票可以融资、融券。融资的意思就是指投资者可以向证券公司交一些保证金,然后借钱买入股票,并在约定的期限内偿还借款本金和利息;融券的意思就是投资者用资金或者证券作为抵押,向证券公司借证券卖出去,并且在约定的期限内,买进相同的品种和相等数量的证券还给证券公司并且支付相应的费用。#### 2.持仓持仓是一个期货术语。持仓的意思就是通过买入的办法持有一定数量期货合约。具

2021-08-29 20:38:25 240

原创 已解决:sqoop mysql导入hive报错

报错内容:ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

2021-05-30 11:40:17 730

原创 maven添加依赖无法加载 报错main java.lang.NoClassDefFoundError

背景:spark-sql开发时,在pom.xml文件添加如下依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.1.1</version> <scope>provided</scope></dependen.

2021-05-27 11:28:22 244

原创 linux安装pip3

系统:Ubuntu版linux安装python3环境下的pip3命令apt-get install python3-pip或sudo apt-get install python3-pip

2021-05-26 09:42:17 7160 1

原创 kafka集群开启后自动挂掉

问题:开启kafka集群后,大概不到一分钟后便挂掉个人解决方法:1、开启zookeeper集群后,删除已经创建的kafka节点尤其是brokers节点目录2、勿忘修改kafka集群节点的每个id

2021-04-23 17:13:37 761

原创 解决:hdfs网页界面创建文件夹权限问题

错误:通过hdfs网页端创建文件夹时报如下错误Permission denied: user=dr.who, access=WRITE, inode="/":root:supergroup:drwx解决方法:执行该命令:hadoop fs -chmod -R 777 /根目录/下全部赋予读写执行权限777

2021-04-22 11:14:50 1155

原创 IDEA 向上或向下新增一行,并光标移入

IDEA开发工具快捷键:向上新增一行,并光标自动移入该行:Ctrl Alt Enter向下新增一行,并光标自动移入该行:Shift Enter

2021-04-11 14:21:32 2184 2

原创 linux下使用find命令查找特定文件

1、默认在当前目录下查找: find -name test.py find为命令,-name表示根据文件名,test.py则为要查找的文件 执行返回文件的绝对路径,若无该文件,则什么也不返回2、在指定文件夹下查找 find /home -name test.py 上述则表明在home目录下,根据文件名来查找test.py文件...

2021-04-08 10:25:19 990

原创 python基础之列表

今日分享:pytohn基础之列表定义及创建列表是一种序列结构,可以包含多个元素,不要求每个元素的类型一样,可以有数字,字符串等。列表通常是以 [] 来表示的>>> list_1 = [1,2,'hello',[],{'key':'value'},{1,2,3},(1,2,)]>>> type(list_1)<class 'list'>这样一个列表就创建成功了,可以看到列表中的元素类型包括:数字、字符串、空值列表以及后面将.

2021-03-21 21:49:06 210

原创 已解决:Eclipse添加第三方jar包到动态web工程

问题:如何添加第三方jar包到java web工程开发工具:Eclipse解决:1、当我们通过 File >>> new >>> Dynamic web project一个动态工程后2、其下会有一个如下图所示的lib文件夹3、将所需要添加的jar包复制到文件夹即可...

2021-03-21 11:56:44 278

原创 python之数字

今日分享:python基础之数字理解数字在python中,数字是一种常见的数据类型,又细分为整型和浮点型数字,即整数和浮点数。整数很好理解,比如常见的1、2等,对于浮点数,普遍说法是带有小数点的数,比如3.14,而百科是这样解释的:浮点数是属于有理数中某特定子集的数的数字表示,在计算机中用以近似表示任意某个实数。具体的说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学计数法。对于大家来说,可以直接将其理解为小数。简单运算

2021-03-19 07:25:35 1282

原创 eclipse开发工具下 java创建mysql数据库properties配置文件存放路径

开发工具:eclipse解决问题:数据库properties文件存放路径背景介绍:在使用阿里的Druid德鲁伊数据库连接池工具时,代码中需要加载读取properties文件,翻了很久博客,总算找到了一个靠谱的解决方案具体步骤如下:鼠标右键点击项目名称,创建源码包:new -> Source Folder名称设为config,然后将配置文件放在该文件夹下mysql配置文件代码如下:url=jdbc:mysql://105.105.139.202:3306/test?re

2021-03-17 11:00:01 3515

原创 Java连接MySQL 实现数据的增删改查 附实际代码

环境介绍:编辑器:Eclipsemysql数据库jar包:mysql-connector-java-8.0.22.jarjava版本:1.8*eclipse如何加载jar包,可参考https://jingyan.baidu.com/article/f3e34a127f837db5eb6535d3.html这里不做重点分享主要内容:主方法代码如下所示: public static void main(String[] args) { // 声明Connection对象..

2021-03-15 16:12:43 983

原创 flume实战:监控文件所追加内容

一:agent配置文件内容# 声明agenta1.sources = r1a1.sinks = k1a1.channels = c1# 监控test.log文件追加内容a1.sources.r1.type = execa1.sources.r1.command = tail -f /opt/software/flume/datas/test.log# Describe the sinka1.sinks.k1.type = logger# Use a channel which

2021-03-13 14:04:06 267

原创 flume实战:netcat端口数据监听

一:环境说明jdk版本:jdk-8u171-linux-x64.tar.gzflume版本:apache-flume-1.7.0-bin.tar.gz需要的小伙伴请自行下载解压并配置,这里不再阐述,若有问题,请评论或移步到公号留言二:实战示例1、编写配置文件此处可先在flume安装目录下创建job文件夹,后续编辑的agent配置文件可放在该文件夹下,(文件夹及文件名自定义即可,保持一致)# 声明一个agent:a1,并分别指定其三大组件的名字a1.sources = r1a

2021-03-13 11:57:39 978 1

原创 django js代码实现点分IP与整型数值的互相转换

问题发现:通过js代码向django路由URL传参时,发现路由未能正确解析获取点分IP的值解决:对点分IP进行js转换,将整型数值传参到djangoURL中即可下述是点分IP与整形数值之间的互相转换函数:// 将点分ip转换为整型数值function ipToInt(ip){ let num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256.

2021-03-11 10:46:07 97

原创 python之字符串

今日分享:python之字符串一:定义及创建字符串就是一系列字符,它是一种数据类型。创建时通常利用引号来括起,单引号或者双引号都可以,但必须是同类型、成对出现。>>> message = 'hello world'>>> message'hello world'>>> message = "hello world">>> message'hello world'二:字符串的家长里短..

2021-02-22 07:18:41 147 2

原创 mysql数据表文件备份及恢复

以下介绍如何将特定mysql数据库中的表备份到本地.sql文件,在此过程中直接对源表进行压缩备份,减少存储空间占用备份:mysqldump -h 192.168.1.32 -P3306-uroot-pway123testdb test | gzip > test.sql.gz恢复gunzip < test.sql.gz | mysql -uroot -pway123 -h 192.168.1.32 -P3306testdb如上命令中可变参数为:数据库表所在IP...

2021-02-02 15:25:39 315

原创 Django中将已存在的数据表生成对应的models模型层文件

问题:如何将mysql中已存在的数据表生成Django框架中models.py文件中的模型层代码下面仅介绍个人在解决该问题中的拙见:主要依靠该命令:pythonmanage.py inspectdb >应用名称/models.py在使用该命令时需注意以下几点:1、大坑:如果已建立Django工程及应用,并已经通过迁移命令生成一些内置表,如果此时将外部的表复制到该项目数据库中,再使用上述命令,那么在此过程中很有可能报错,并导致models.py文件中已存在的模型层代码清空(慎用,一旦..

2021-01-28 09:09:32 358

原创 实现Django后端获取前端下拉框内的值

实现:通过在前端HTML页面的下拉框选择内容,实现后端view视图层获取到该内容值1、前端HTML代码如下:通过在一个表单中内嵌一个下拉框注意该form表单的提交方式为method="post"内嵌select选择框,千万要注意不能都是lable标签,否则将会返回None值,不能达到目的<form action="result.html" method="post" name="tasksubmit"> {% csrf_token %} &l

2021-01-20 15:46:45 3805

原创 spark log4j.properties配置文件 输出日志级别修改

开发工具:IDEA开发环境:win10本地环境,spark运行spark程序时,控制台总会输出很多红色日志,默认日志输出级别为INFO,可通过以下两种方法进行日志级别的修改方法一:在代码块中进行日志级别的设置 val sc = SparkSession.builder() .config("spark.testing.memory","2000000000") .master("local[*]") .appName("aiwen.com")

2021-01-16 15:38:26 987

原创 已解决:python3高版本lxml模块无法导入etree

可通过安装低版本lxml解决pip install lxml==4.1.0 (python3环境)

2021-01-05 15:09:47 2429 3

原创 已解决:pyspark调用mysql 报错 java.sql.SQLException: No suitable driver

centos-python3环境下,调用pyspark库连接mysql数据库时报错:java.sql.SQLException: No suitable driver具体如下: File "/usr/local/lib/python3.6/site-packages/pyspark/sql/readwriter.py", line 155, in load return self._df(self._jreader.load()) File "/usr/local/lib/pytho

2020-12-17 16:06:02 1547 1

原创 已解决:Exception: Python in worker has different version 2.7 than that in driver 3.6

已解决:Exception: Python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.在阿里云服务器上运行pyspark模块程序时,核心报错如

2020-12-17 15:51:40 5448

原创 004 Hadoop概述、背景及其优势

1 Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈。2 Hadoop发展历史Lucene框架是Doug Cutting开创的开源软件,用Java代码书写,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。2001年年底Lucene成为Apache基金会的一个子项目。对于海量数据的场景,Lu

2020-11-15 19:45:32 582

原创 002 大数据部门业务流程及组织结构

1 大数据部门业务流程分析产品人员提需求(统计总用户数、日活跃用户数、回流用户数等) ====> 数据部门搭建数据平台、分析数据指标 ====> 数据可视化(报表展示、邮件发送、大屏展示等)2 大数据部门组织结构大数据部门组织结构,适用于大中型企业:2.1 平台组:Hadoop、Flume、Kafka、Hbase、Spark等框架平台搭建,集群性能监控,集群性能调优2.2 数据仓库组:ETL工程师-数据清洗,Hive工程师-数据分析数据仓库建模2.3 数据挖掘组:算法工程

2020-11-15 15:38:40 1199

原创 001 大数据概念

1.1 大数据概念大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量‘高增长率和多样化的信息资产。主要解决海量数据数据的存储和海量数据的分析计算问题按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1.2 大数据特点(4V)Volume(大量)截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上人类总共说

2020-11-14 21:34:10 124

原创 大数据应用之啤酒尿布

今日分享热词:数据挖掘 数据分析数据挖掘关于数据挖掘(Data mining)的概念定义,小编也是在网上爬了很久,弱水三千,咱就舀几瓢来喝:1、首先是智库百科上的定义,从两个角度来说技术角度:所谓的数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。什么个意思呢?现在数据库中有无数T/P/E...这么多的独立的数据,去通过挖掘来找出存在关系的数据或者说数据中的关系。问题来了,如何去找,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,利

2020-10-31 20:51:13 1880

原创 003 大数据4V特征

今日分享:大数据一起来了解下大数据的前世今生:一:大数据的定义大数据这一词,在上世纪80年代就有美国人曾提出来,直到2008年9月,《科学》杂志发表文章“Big Data: Science in thePetabyte Era”,“大数据”这个词才开始广泛传播。小编从网上找了以下几个关于大数据的定义:1:Wikipedia:Big data is a term for data sets that are so large or complex that traditiona...

2020-10-31 20:37:38 1404

原创 解决:禁止访问 (403) CSRF验证失败

在测试Django框架POST请求方式时,程序报错如下在确保访问安全的情况下有一下两种方式:1、在相应html文件form代码块中添加如下代码:<form method="post" action="/method_show/"> {% csrf_token %} <!-- 改行代码为添加部分 --> <input type="submit" value="post方式"></form>但是仅仅添加这句代码,...

2020-10-27 10:52:56 5357

原创 linux服务器后台启动python程序

nohup python -u test.py>test.log 2>&1&如上,使用nohup命令,在linux服务器上以后台进程的形式运行python脚本,并输出日志python可为python2或者python3test.py是为要运行的程序test.log是为程序运行中打印输出的log文件其余参数不用改动...

2020-10-23 16:54:17 915

原创 mysql 根据查询结果创建新表

mysql环境下,将查询结果新建成一张表create table result_table select * from init_table;上述代码中result_table是为要创建的结果表的表名*则为要查找的内容,也可以是多个字段init_table则为原始表...

2020-10-23 16:34:27 13781

原创 mysql 字符串日期格式转换

在mysql数据库中可使用内部函数 STR_TO_DATE(str,format) 实现字符串日期格式的转换mysql> select STR_TO_DATE('20100211','%Y%m%d %H:%i:%s') as result;+---------------------+| result |+---------------------+| 2010-02-11 00:00:00 |+---------------------+mys...

2020-10-23 11:57:30 441

原创 IP块拆分

如何将类似于这样的IP块"152.139/16"拆分为多个单个ip可以使用第三方IPy库,支持python2、3环境from IPy import IPip = IP('152.139/16')a = ip[0] # 第一个z = ip[-1] # 最后一个a -> 152.139.0.0z -> 152.139.255.255返回值是一个可迭代的对象,也可指定获取某索引值...

2020-10-23 11:22:13 528

原创 干货“python基础之变量“

今天内容不多,无水分纯干货一起了解下python基础之变量:变量定义变量按字面来理解就是可以变化的量,赋予不同的值,会有不同的量;每创建一个变量,就会在计算机内存中开辟一个空间,用于存储规定范围内所赋予的值。message = "Hello world"其中message就是一个变量,而引号内的 Hello world 就是变量message的值变量命名规范在python中变量并不是随意命名的,要遵循以下规则:1. 变量名仅且只能包含字母、数字下划线。注意 变量名..

2020-09-06 21:48:33 569

原创 干货: 数据分析必看书籍

今日分享:入门数据分析该看哪些书小编今天逛了知乎以及与数据分析相关的网站,挑选了十本搜索度较高的书籍,在此推荐给大家。针对数据分析能力的高低,主要按下面三个阶段来说:入门篇入门篇推荐四本书,适合数据分析刚入门者:要转行的你、刚毕业的你、对数据分析没有整体概念的你,可以先着手看这几本书。1、《金字塔原理》主要目的是培养建立个人的逻辑思维体系和表达呈现。金字塔原理强调:重点突出、逻辑清晰、主次分明的逻辑思路;金字塔的基本结构是:中心思想明确,结论先行,以上统下,归类分组,逻辑递进,先重要后

2020-09-01 22:31:48 884

1500种疾病及病症数据.xlsx

1500种疾病,相应的多维度疾病特征描述,可用于医疗大数据论文研究,适用于自然语言处理、数据挖掘分析、疾病预测

2019-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除