爬取文章知识总结

一.正则表达式

规则:

正则表达式可以用字符串来描述规则,从左到右按规则匹配字符串,java.util.regex包内置了正则表达式引擎。

有特殊字符时,应该用\转义

想匹配非ASCII字符,例如中文,那就用\u####的十六进制表示

二。HTTP协议

客户端和服务端进行数据传输的一种规则

组成:状态行,消息报头,响应正文

状态行也由三部分组成,包括HTTP协议的版本,状态码,以及对状态码的文本描述

特点:支持客户/服务器模式、简单快速、灵活、无连接(可以通过Connection: Keep-Alive实现长连接)、无状态

三。Git

git init:把这个目录变成Git可以管理的仓库

git add:把文件添加到仓库

git commit -m:把文件提交到仓库,-m后是本次提交的说明,可以输入任意内容。

git status:查看仓库当前的状态

git diff:查看文件被修改的内容

git log:查看历史修改日志

git reflog:查看每一次命令

git reset --hard:回退版本,其中hard后面可以接版本号表示退回到那个版本,或者HEAD^退回上一个版本,HEAD^^表示两个版本,以此类推。

git checkout -- file:可以丢弃工作区的修改,file代表文件名

git add命令实际上就是把要提交的所有修改放到暂存区,然后,执行git add就可以一次性把暂存区的所有修改提交到分支。

删除文件:git rm删除,然后再git commit提交删除

git checkout --file:恢复被删除的文件,file代表文件名

git checkout命令加上-b参数表示创建并切换

或git switch -c dev表示创建并切换到dev分支,git switch直接切换

git branch查看当前分支

git merge命令用于合并指定分支到当前分支

合并分支时,加上--no-ff参数就可以用普通模式合并,合并后的历史有分支,能看出来曾经做过合并,而fast forward合并就看不出来曾经做过合并

git branch -d 删除分支

git log --graph 查看分支合并图

四。Jsoup

用于解析和遍历一个HTML文档

输入:

解析一个HTML字符串:Jsoup.parse(String html)

解析一个body片断:Jsoup.parseBodyFragment(String html)

从一个URL加载一个Document:Jsoup.connect(String url)

从一个文件加载一个文档:Jsoup.parse(File in, String charsetName, String baseUri)

解析:

Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。

使用选择器语法来查找元素:

jsoup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。

从元素抽取属性,文本和HTML

要取得一个属性的值,可以使用Node.attr(String key) 方法

对于一个元素中的文本,可以使用Element.text()方法

对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerHtml()方法

处理URLs:

  1. 解析文档时确保有指定base URI
  2. 使用 abs: 属性前缀来取得包含base URI的绝对路径

数据修改:

  1. 设置属性的值
  2. 设置元素的html内容
  3. 设置元素的文本内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值