Scrapy作业——爬取大数据教育机构资源
auth:王伟喆
网站源码,放一部分,可以去查看源代码
这个网址
http://86mhz.cn/indax.html
这个网页禁止直接鼠标右键查看源码,不过这不难
我们直接点击浏览器上的:菜单——保存网页——保存为html即可,然后
把保存下来的html改成txt就成功了
# -*- coding: utf-8 -*-
"""
Created on Fri Mar 1 15:22:29 2019
@author: Administrator
"""
#response.css('article.product_pod').xpath('ul.pager')
'''
这是一个大数据内部机构的训练资料网站,我暂时实现了爬取他们所有
的视频和pdf文档链接
'''
body='''
<!DOCTYPE html>
<html>
<head lang="en">
<meta charset="UTF-8">
<title>86马赫仔</title>
<link rel="stylesheet" href="file/css/common.css">
<link rel="stylesheet" href="file/css/style.css">
</head>
<body>
...
爬虫parse代码
# -*- coding: utf-8 -*-
"""
Creat