爬虫原理

最新推荐文章于 2023-05-12 10:19:23 发布

VIP文章 Sunbeam_c

最新推荐文章于 2023-05-12 10:19:23 发布

阅读量488

点赞数

分类专栏：爬虫相关

本文链接：https://blog.csdn.net/Programmer_ch/article/details/102787137

版权

一二章学习笔记

part1 介绍爬虫基础

一二章创建

爬虫基础，beautifulsoap介绍，正则表达式

三四章采集

采集，api

五六存储读取

MySQL，编码介绍，CSV，PDF，word等文件格式读取

看项目

part2 高级爬虫

javascrip等背后的信息

计算机网络基础

浏览器是1990年才发明的，最早的浏览器是Nexus浏览器，本来我们看到的网站应该是一串代码，有了浏览器就可以解释各种代码，呈现多彩多样的画面。

网络浏览器就是代码，而代码是可以分解的，可以分解成许多基本组件，可重写、重用

这将会输出 http://pythonscraping.com/pages/page1.html 这个网页的全部 HTML 代码。更准确地说，这会输出在域名为 http://pythonscraping.com 的服务器上 < 网络应用根地址 >/ pages 文件夹里的 HTML 文件 page1.html 的源代码。

BeautifulSoup

继上面

from urllib.request import urlopen 
html = urlopen("http://pythonscraping.com/pages/page1.html") 
print(html.read())

用urllib库函数获得网站的HTML代码缺点是全是HTML原封不动摘录没有分类

现在用一个更强大的库函数 BeautifulSoup 里面有 BeautifulSoup对象可以将HTML有标签的项分类比如head body h

爬虫原理

网页像一个站点用户获取数据方式

1.浏览器发出请求——下载网页代码——解析成页面

2.模拟浏览器发出请求——获取代码找出有用数据——下载存放数据库/文件中

正则表达式

(1) 字母“a”至少出现一次；

(2) 后面跟着字母“b”重复 5 次；

(3) 后面再跟

最低0.47元/天解锁文章

Sunbeam_c

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫原理

一二章学习笔记part1 介绍爬虫基础一二章创建爬虫基础，beautifulsoap介绍，正则表达式三四章采集采集，api五六存储读取MySQL，编码介绍，CSV，PDF，word等文件格式读取看项目part2 高级爬虫javascrip等背后的信息计算机网络基础浏览器是1990年才发明的，最早的浏览器是Nexus浏览器，本来我们看...
复制链接

扫一扫