网络爬虫是在互联网按照一定规则去爬取人类需要的信息的程序。主要是通过对URL的请求来实现。
最大的网络是万维网www,
我们的爬虫只是参与其中很小的一部分
爬虫本质上就是HTTP客户端请求。
爬虫怎么做?
1.找到URL
2.构造请求包(headers,cookies,data)
3.发送请求,接收响应
4.数据清洗,提取需要信息
爬虫工具
1.发起请求 requests
2.处理响应 bs4 xpath re
3.存储数据 本地存储,数据库存储
pip install requests
pip install bs4
网页三剑客
HTML CSS JavaScript
需要掌握的页面调试器
1.CTRL+F调出搜索框,可以写搜索语法
2.network选项卡抓包
3.左上角小箭头可以定位元素
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>这是测试</title>
<link href="index-style.css" rel="stylesheet">
<style type = "text/css">
p{
color:red;
}
</style>
</head>
<body>
<h1>这是一个大标题</h1>
<p>这是一个段落</p>
<img src="1.png">
</body>
</html>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>这是测试</title>
<link href="index-style.css" rel="stylesheet">
<script src="index.js"></script>
</head>
<body>
<h1>这是一个大标题</h1>
<p id = "welcome-line">这是一个段落</p>
<a class = "link" href="//makerbean.com">每颗豆官网</a>
<img src="1.png">
</body>
</html>
index-style.css
p{
color:red;
}
#welcome-line{
color:blue;
}
.link{
color:green;
}
index.js
var alertText = "Hello World";
alert(alertText);