爬虫--某中文网-免费小说数据

详情

代码详情见公众号------梦引之遇
在这里插入图片描述

采集信息

1)起点中文网限制五页的小说信息提供

2)提供的小说数据:

    小说标题/作者/分类/更新状态/简介/字数

3)数据对应的xpath路径

反字体加密获取小说字数

由于起点中文网在小说字数处设置了加密映射,直接爬取会导致乱码,需要进行重构映射。

MongoDB数据库存储

  1. 安装MongoDB数据库(正常官网下载安装)
  2. 导入pymongo模块
  3. 连接数据库
  4. 建立数据库
  5. 建立数据集合
  6. 插入数据

多进程减少时间

多进程爬取(必须在主函数跑进程,否则试逝)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值