一二章学习笔记
part1 介绍爬虫基础
一二章 创建
爬虫基础,beautifulsoap介绍,正则表达式
三四章 采集
采集,api
五六 存储读取
MySQL,编码介绍,CSV,PDF,word等文件格式读取
看项目
part2 高级爬虫
javascrip等背后的信息
计算机网络基础
浏览器是1990年才发明的,最早的浏览器是Nexus浏览器,本来我们看到的网站应该是一串代码,有了浏览器就可以解释各种代码,呈现多彩多样的画面。
网络浏览器就是代码,而代码是 可以分解的,可以分解成许多基本组件,可重写、重用
这将会输出 http://pythonscraping.com/pages/page1.html 这个网页的全部 HTML 代码。更 准确地说,这会输出在域名为 http://pythonscraping.com 的服务器上 < 网络应用根地址 >/ pages 文件夹里的 HTML 文件 page1.html 的源代码。
BeautifulSoup
继上面
from urllib.request import urlopen
html = urlopen("http://pythonscraping.com/pages/page1.html")
print(html.read())
用urllib库函数获得网站的HTML代码 缺点是 全是HTML原封不动摘录 没有分类
现在用一个更强大的库函数 BeautifulSoup 里面有 BeautifulSoup对象 可以将HTML有标签的项分类 比如head body h
爬虫原理
网页像一个站点 用户获取数据方式
1.浏览器发出请求——下载网页代码——解析成页面
2.模拟浏览器发出请求——获取代码找出有用数据——下载存放数据库/文件中
正则表达式
(1) 字母“a”至少出现一次;
(2) 后面跟着字母“b”重复 5 次;
(3) 后面再跟