Python练手小程序—从html中提取正文

博主分享了在GitHub上找到的Python练手项目,目标是从HTML文件中提取每个题目和摘要,并存储到MongoDB。通过正则表达式初步实现,但发现不同HTML结构的标题和摘要规则不一,计划后续深入学习。
摘要由CSDN通过智能技术生成

在GitHub上发现一些很有意思的项目,由于本人作为Python的初学者,编程代码能力相对薄弱,为了加强Python的学习,特此利用前辈们的学习知识成果,自己去亲自实现。

来源:GitHub
Python练手小程序项目地址:https://github.com/Show-Me-the-Code/python
写作日期:2019.12.20

今天练习第0008题,题目如下:
在这里插入图片描述
先展示一下我的HTML文件吧
在这里插入图片描述
我打算提取HTML文件中的每个题目和摘要,然后存储在MongoDB上。先看下HTML的源文件,在页面上双击选中“显示页面源文件”,就可以看到右侧的源码信息。
在这里插入图片描述
我要提取的内容在源文件中的位置查看
在这里插入图片描述
我打算用最简单的正则表达式提取里面的内容,后期练手其他项目再使用一些库提取。

注:由于正则表达式,找规则,我发现百度搜索结果,很多不同title下的abstract有不同的规则,没有一个通用的模板,所以尝试了好久,找到了3条规则,匹配到9条abstract,还有1条没怎么搞了,太南了,呜呜~

本文主要是方法记录一下吧,正则表达使用,打算抽时间好好搞下!

Python代码如下:

import re
import codecs


def 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值