自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 小记---------idea新手操作

加载jar包 file---project structrue ---modules---dependencies---- 点+号 选择idea软件的位置的lib 添加自带的jar包,or 指定到自己下载好的jar包的位置切换工作环境: 右边maven---profiles 选中自己配置的工作环境即可。把普通文件夹转换成source文件夹...

2019-09-25 19:53:00 111

转载 小记---------关于linux 定时任务crontab

linux的crontab定时任务 启动服务: service crond start 关闭服务: service crond stop 重启服务: service crond restart 服务状态: service crond status/etc/cron.d/ 这个目录用来存放任何要执行的crontab文件或脚本。权...

2019-09-24 15:30:00 107

转载 小记---------网页之htmlunit

HtmlUnit是一款开元的Java页面分析工具,可以有效的使用htmlunit分析页面大汉的内容,项目可以模拟浏览器运行,被誉为Java浏览器的开元实现,这个没有界面的浏览器API的使用 模拟特定浏览器 例: WebClient webClient=new WebClient(BrowserVersion.FIREFOX_3); ...

2019-09-23 21:22:00 121

转载 小记---------网页采集之selenium

1.元素定位ID定位元素:findElement(By.id(“”));通过元素的名称定位元素:findElement(By.name(“”)); 通过元素的html中的位置定位元素:findElement(By.xpath(“”));通过元素的标签名称定位元素:findElement(By.tagName(“”));通过元素的链接名称...

2019-09-23 21:21:00 81

转载 小记---------网页采集之Jsoup

Jsoup是一款Java解析器,相当于httpClient解析器功能:①:从一个URL,文件或字符串中解析HTML ②:使用DOM或CSS选择器来查找、取出数据 ③:可操作HTML元素、属性、文本特性:Jsoup解析器能够尽最大可能创建一个干净的解析结果(自动补全不完整的HTML格式)1.没有关闭的标签。2.隐式标签3.创建...

2019-09-23 21:20:00 95

转载 小记----采集之Xpath

一、XPATH简介 Xpath是XML路径语言,它是一种确定XML文档中某部分位置的语言二、XPATH语法XPATH使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。/div/a[1]选取属于div的子元素第一个a元素/div/a[last()]选取属于div的子元素的最后一...

2019-09-23 21:16:00 88

转载 小记--------采集基础

1.采集简易流程:非结构化数据-数据采集-数据清洗-结构化数据-采集存储非结构化数据: 不方便用数据库二维逻辑表现的数据,包含种类:音频、视频、文本、日志、WEB数据(html、xml)结构化数据:一般指存储在数据库中,具有一定逻辑结构和物理结构的数据。如 ORSACLE 、 DB2 、SQLSERVER、 MYSQL数据清洗:...

2019-09-23 20:43:00 198

转载 小记-------linux scp 远程拷贝命令

//phoenix-4.10.0-HBase-1.2-server.jar 要拷贝的文件或文件夹//root 当前用户//192.148.21.1 远程机器路径, 也可以是域名。// $PWD 拷贝到远程机器的路径与当前机器路径一致scp -rphoenix-4.10.0-HBase-1.2-server.jar root@192.148.21.1:$PWD...

2019-09-23 19:57:00 132

转载 小记------查看‘阿里云机器’yarn 日志

通过ip:8088 页面 复制正在运行的application ID在linux客户端执行 xshellyarn logs -applicationId application_1558691318924_0020 > a.txt//需要从web页面去复制到application的id值 a.txt 是把日志读取到哪个文件,方便之后查看日志转载于:ht...

2019-08-27 17:53:00 93

转载 小记------通过脚本监控、及重新运行其他脚本保证脚本正常运行

#! /bin/bashwhile truedo#判断maxwell进程是否存在pid=`ps -ef |grep "Maxwell"|grep -v grep`#? 的意思是 : 上一行代码的返回值 ,也就是 pid的值 -ne : 等于 if [$? -ne 0 ];then# 打开maxwell所在文件夹cd /opt/cdh/maxwell-1.21.1nohup bin...

2019-08-27 17:49:00 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除