爬虫原理

 

一二章学习笔记

part1 介绍爬虫基础

一二章 创建

爬虫基础,beautifulsoap介绍,正则表达式

三四章 采集

采集,api

五六 存储读取

MySQL,编码介绍,CSV,PDF,word等文件格式读取

看项目

part2 高级爬虫

javascrip等背后的信息

 

计算机网络基础

浏览器是1990年才发明的,最早的浏览器是Nexus浏览器,本来我们看到的网站应该是一串代码,有了浏览器就可以解释各种代码,呈现多彩多样的画面。

网络浏览器就是代码,而代码是 可以分解的,可以分解成许多基本组件,可重写、重用

这将会输出 http://pythonscraping.com/pages/page1.html 这个网页的全部 HTML 代码。更 准确地说,这会输出在域名为 http://pythonscraping.com 的服务器上 < 网络应用根地址 >/ pages 文件夹里的 HTML 文件 page1.html 的源代码。
 

BeautifulSoup

继上面

from urllib.request import urlopen 
html = urlopen("http://pythonscraping.com/pages/page1.html") 
print(html.read())

用urllib库函数获得网站的HTML代码 缺点是 全是HTML原封不动摘录 没有分类

现在用一个更强大的库函数 BeautifulSoup 里面有 BeautifulSoup对象 可以将HTML有标签的项分类 比如head body h

 

 

爬虫原理

网页像一个站点 用户获取数据方式

1.浏览器发出请求——下载网页代码——解析成页面

2.模拟浏览器发出请求——获取代码找出有用数据——下载存放数据库/文件中

 

正则表达式

(1) 字母“a”至少出现一次;

(2) 后面跟着字母“b”重复 5 次;

(3) 后面再跟

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值