- Python HTML正文抽取(存储为JSON) [ 笔记 ]

抽取HTML后的内容,一般都会存储为JSON或者CSV格式。《Python爬虫开发与项目实战》一书中以小说阅读网为例,抽取出小说的标题、章节、名称和对应链接,那么为了保险起见,还是老老实实照着来吧 —— 在抽取之前,作者在书中特意强调了一点,http://seputu.com/是一个静态网站,它所有的标题章节名称都不是由JavaScript动态加载的,虽然我不明白作者为什么要特意强调这一点...
摘要由CSDN通过智能技术生成

抽取HTML后的内容,一般都会存储为JSON或者CSV格式。《Python爬虫开发与项目实战》一书中以小说阅读网为例,抽取出小说的标题、章节、名称和对应链接,那么为了保险起见,还是老老实实照着来吧 —— 

在抽取之前,作者在书中特意强调了一点,http://seputu.com/是一个静态网站,它所有的标题章节名称都不是由JavaScript动态加载的,虽然我不明白作者为什么要特意强调这一点,但是既然他强调了,作为学习者,我也还是把这个前提提出来,至于为什么,等我以后学会了爬虫应该就知道为什么了,反正现在不管

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值