Python 刑法文本爬取示例 Excel条款格式 openpyxl写入

开篇废话(干活请看下个大标题)

近期学习刑法,总结的时候需要用Excel表将刑法条文分条列出,在手动复制粘贴了半个小时后想到用爬虫来解决,才接触过requests库,有了想法后便去MOOC听了会儿爬虫,只讲了下载文本和图片,没讲到编辑Excel这种文件。

于是就bing了一系列博客,下载了xlrd,xlwt,后来发现它们打不开xlsx格式,而且写入操作看教程觉得鸡肋。又学习了beautifulsoup,研究了正则表达式,查看了openpyxl的说明文档。磕磕绊绊七个小时,终于写出了这几十行代码。

其实如果只是要求文本,获得soup之后取soup.text写入txt文件即可。

效果图

全代码

import requests
import openpyxl
from bs4 import BeautifulSoup

header={
	"User-Agent":"Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36"
}
url = "http://search.chinalaw.gov.cn/law/searchTitleDetail?LawID=332932&Query=%E5%88%91%E6%B3%95&IsExact=&PageIndex="
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值