我的奋斗我的路
这里爬取的是传智播客大型学员征文活动,是一个个屌丝逆袭的成功故事
这次主要爬取的是http://fendou.itcast.cn/article
下面的文章 包括:
1 目前排行
2 文章名称
3 作者
4 票数
5 支持Ta
6 查看
刚刚看了一下,点赞排行版,到最后的一共是144文章,难怪我搞个for循环60,到14的时候都已经不行了。可能是真的文章数量太少了。这里爬取的网站也是用的一部ajax异步json数据把,对前端了解的也不是很多,只是懂一些这些,不喜欢的勿喷。
scrapy 爬取json数据也是很简单,直接在parse方法中解析一下便好。
贴上代码:
# -*- coding: utf-8 -*-
# @Time : 2017/8/10 22:19
# @Author : 蛇崽
# @Email : 17193337679@163.com
# @File : BokeFightingMain.py 传智博客主页最新投稿文章
import scrapy
import json
# from chuanzhibokemyfendou.chuanzhibokemyfendou.items import BokeFighting
f = open('传智排行.txt', 'a',encoding='utf-8')
class BokeFightingMain(scrapy.Spider):
name = 'bokemain&