爬虫系列二：十天爬虫实战入门第四天——网页的基本结构

taczeng

于 2019-07-03 15:54:04 发布

阅读量256

点赞数

分类专栏： python&python爬虫爬虫小白从入门到精通文章标签：爬虫

本文链接：https://blog.csdn.net/taczeng/article/details/94569624

版权

python&python爬虫同时被 2 个专栏收录

34 篇文章 2 订阅

订阅专栏

爬虫小白从入门到精通

25 篇文章 8 订阅

订阅专栏

爬虫就是通过代码的形式，获取互联网上一切公开的数据，这是爬虫可以干的事情！

html文本格式(90%)

<!DOCTYPE html>
<html>

<head>
<meta charset="utf-8">
<title>HTML知识学习</title>
</head>
<body>
    <h1>我的第一个标题</h1>
    <p>我的第一个段落。</p>
</body>

</html>

HTML（超文本标记语言）的一些基础知识（h5的知识）

1.了解html标签，body标签，head标签

2.h1标签（一级标题，h2二级标题...），p标签，img标签，video标签，a标签，div标签等等......

json格式(9%)

xml格式及其他格式(1%)

整体xml格式的数据非常少

taczeng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫系列二：十天爬虫实战入门第四天——网页的基本结构

爬虫就是通过代码的形式，获取互联网上一切公开的数据，这是爬虫可以干的事情！html文本格式(90%)<!DOCTYPE html><html><head><meta charset="utf-8"><title>HTML知识学习</title></head><body> ...
复制链接

扫一扫

专栏目录