JSON:爬取文本信息的存储格式
XPath:爬取html文本的工具
-
概念:
-
实战:
1./text():提取标签文本内容
2.Extract():详细信息
Scrapy库
1.原理:
、
、
2.安装
3.使用:爬取静态页面:北邮的所有教学学院
![](https://i-blog.csdnimg.cn/blog_migrate/572f5ba5e9f78ad5af8f96285f9e6325.png)
、
4.实战:
①爬取多页信息:
5.各个scrapy组件的定义情况:
①items:声明爬取元素的存储键
②ppipelines:打开设置存放数据结果的文件
③setting:更改设置文件
④Begin.py:pycharm专用执行scrapy项目命令行
(fuck_l 是爬虫名字,在spider文件中定义)