python3读取本地_怎么用Python读取本地网站的内容

最新推荐文章于 2021-11-18 16:46:48 发布

weixin_39786341

最新推荐文章于 2021-11-18 16:46:48 发布

阅读量75

点赞数

文章标签： python3读取本地

展开全部

思路如下：

使用2113urllib2库，打开页面，获5261取页面内容，再4102用正则表达式提取需要的数据就可以1653了。

下面给你个示例代码供参考，从百度贴吧抓取帖子内容，并保存在文件中。

# -*- coding:utf-8 -*-

import urllib2

import re

url='

page=urllib2.urlopen(url).read().decode('gbk')

none_re=re.compile('||')

br_re=re.compile('
')

title_re=re.compile('

content_re=re.compile('

(.*?)

title=re.search(title_re,page)

title=title.group(1).replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')

content=re.findall(content_re,page)

with open('%s.txt'%title,'w') as f:

for i in content:

i=re.sub(none_re, '', i)

i=re.sub(br_re, '\n', i)

f.write(i.encode('utf-8').strip()+'\n')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39786341

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3读取本地_怎么用Python读取本地网站的内容

展开全部思路如下：使用2113urllib2库，打开页面，获5261取页面内容，再4102用正则表达式提取需要的数据就可以1653了。下面给你个示例代码供参考，从百度贴吧抓取帖子内容，并保存在文件中。# -*- coding:utf-8 -*-import urllib2import reurl='page=urllib2.urlopen(url).read().decode('gbk')none...
复制链接

扫一扫