Scrapy作业——爬取大数据教育机构资源

Scrapy作业——爬取大数据教育机构资源


auth:王伟喆

网站源码,放一部分,可以去查看源代码

这个网址
http://86mhz.cn/indax.html
这个网页禁止直接鼠标右键查看源码,不过这不难
我们直接点击浏览器上的:菜单——保存网页——保存为html即可,然后
把保存下来的html改成txt就成功了

# -*- coding: utf-8 -*-
"""
Created on Fri Mar  1 15:22:29 2019

@author: Administrator
"""
#response.css('article.product_pod').xpath('ul.pager')
'''
这是一个大数据内部机构的训练资料网站,我暂时实现了爬取他们所有
的视频和pdf文档链接
'''


body='''
<!DOCTYPE html>
<html>
<head lang="en">
    <meta charset="UTF-8">
    <title>86马赫仔</title>
    <link rel="stylesheet" href="file/css/common.css">
    <link rel="stylesheet" href="file/css/style.css">
</head>
<body>
...

爬虫parse代码

# -*- coding: utf-8 -*-
"""
Creat
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值