Scrapy作业——爬取大数据教育机构资源

最新推荐文章于 2024-10-07 23:00:36 发布

王伟喆prototype

最新推荐文章于 2024-10-07 23:00:36 发布

阅读量798

点赞数 1

本文链接：https://blog.csdn.net/weixin_41593821/article/details/88412895

版权

Scrapy作业——爬取大数据教育机构资源

网站源码，放一部分，可以去查看源代码
爬虫parse代码
结果

auth:王伟喆

网站源码，放一部分，可以去查看源代码

这个网址
http://86mhz.cn/indax.html
这个网页禁止直接鼠标右键查看源码，不过这不难
我们直接点击浏览器上的：菜单——保存网页——保存为html即可，然后
把保存下来的html改成txt就成功了

# -*- coding: utf-8 -*-
"""
Created on Fri Mar  1 15:22:29 2019

@author: Administrator
"""
#response.css('article.product_pod').xpath('ul.pager')
'''
这是一个大数据内部机构的训练资料网站，我暂时实现了爬取他们所有
的视频和pdf文档链接
'''


body='''
<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title>86马赫仔</title>
    <link rel="stylesheet" href="file/css/common.css">
    <link rel="stylesheet" href="file/css/style.css">
</head>
<body>
...