爬虫实践(二)--掌阅书城

url分析

分类URL

//分类页面
http://www.ireader.com/index.php?ca=booksort.index&pca=booksort.index&pid=92&cid=320&order=download&status=0&page=0
  • pid频道 === 92 为出版图书 10 男频 68女频(其他数字都为出版)

  • cid类型 === 小说 文学传记等(三位数字)

  • status === 全部免费特价vip 0 1 2 3 4

-page === 分页页码

详情URL

http://www.ireader.com/index.php?ca=bookdetail.index&pca=booksort.index&bid=11251002
  • bid === 书的id

cookies分析

从浏览器中扒出来这三个

'Hm_lpvt_2583df02aa8541db9378beae2ed00ba0': '1502265076',
'Hm_lvt_2583df02aa8541db9378beae2ed00ba0': '1502263527',
'ZyId': 'ada56e4598ab89a9944f

爬取思路

掌阅书城页面结构
image

关注三个点
1. 类型

频道貌似只有三种,类型会随着频道的改变相应变化
  1. 图书列表

    tab上的热门貌似只是改变排序,内容是一样的,获取每本书的detail地址,并根据此地址去解析详细内容

  2. 分页

    只需要获取‘下一页’标签里的地址然后再次递归访问重复第二点方法

爬取内容

掌阅书城详情结构
image

{
    "_id" : "10107833",
    "author" : "周文根,徐之江",
    "img" : "http://book.img.ireader.com/group6/M00/17/13/CmQUN1X1A1CEOTvLAAAAAANWZNk701351932.jpg?v=PkHOJwXM",
    "title" : "市场营销与策划",
    "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=booksort.index&bid=10107833",
    "price" : "1.00元",
    "des" : "本书是市场营销专业的核心课程教材,以培训和训练学生的市场营销通用职业能力为宗旨,符合基于工作过程为导向的高职教育课程改革思路。\r\n本书注重实用性、应用性,帮助学生全面了解企业营销活动的基本内容,树立以顾客需求为导向的营销观念;能够完成相关的营销工作任务。",
    "num_rate" : "30",
    "rate" : "7.3",
    "tag" : "市场营销",
    "press" : "浙江大学出版社",
    "similar" : [ 
        {
            "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10897498",
            "name" : "金融营销"
        }, 
        {
            "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10863597",
            "name" : "商战(特劳特经典丛书)"
        }, 
        {
            "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10885731",
            "name" : "保险销售人员超级口才训练:保险销售人员与客户的111次沟通实例 (莫萨营销沟系列 5)"
        }, 
        {
            "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10878435",
            "name" : "项目计划、进度与控制(原书第5版)"
        }, 
        {
            "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10907180",
            "name" : "案例:创业方法论(第16辑)"
        }, 
        {
            "url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10956257",
            "name" : "零售心理战:要站在顾客的立场上思考"
        }
    ],
    "num_word" : "11.5万字"
}

爬取过程中发现对于有些字段要允许可以没有,因为页面上可能会没有相应字段

leason|个人博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

leason00

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值