爬虫就是通过代码的形式,获取互联网上一切公开的数据,这是爬虫可以干的事情!
html文本格式(90%)
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>HTML知识学习</title>
</head>
<body>
<h1>我的第一个标题</h1>
<p>我的第一个段落。</p>
</body>
</html>
HTML(超文本标记语言)的一些基础知识(h5的知识)
1.了解html标签,body标签,head标签
2.h1标签(一级标题,h2二级标题...),p标签,img标签,video标签,a标签,div标签等等......
json格式(9%)
xml格式及其他格式(1%)
整体xml格式的数据非常少