python3爬取页面内容并筛选

最新推荐文章于 2024-07-27 12:20:46 发布

weixin_30477797

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量584

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/isule/p/8926754.html

版权

from urllib import request
import re
def getResponse(url):
    url_request = request.Request(url)
    url_response = request.urlopen(url_request)
    return url_response
def getData(data):
    html = re.findall(r'alt="[\u4E00-\u9FA5\\s]+"',data)
    return html
aid = 1
for aid in range(1,123):
    html = "http://www.zhijiaow.com/ShopMallList_%s_0.html" %aid
    aid +=1    
    http_response = getResponse(html)
    data = http_response.read().decode('utf8')
    l = getData(data)
    global n
    n = 1
    for info in l:
        with open('c.txt','a') as f:
            f.write(info)
        n +=1
with open('c.txt','r') as f:
    lines = f.readlines()
with open('a.txt','a') as w:
    for l in lines:
        w.write(l.replace('"alt="','\n'))

转载于:https://www.cnblogs.com/isule/p/8926754.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30477797

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python3爬取页面内容并筛选

from urllib import requestimport redef getResponse(url): url_request = request.Request(url) url_response = request.urlopen(url_request) return url_responsedef getData(data): ...
复制链接

扫一扫