爬取www.amazon.com网站下所有商品分类url总结（附文件合并程序）

最新推荐文章于 2022-05-29 10:43:38 发布

sdlcwangsong

最新推荐文章于 2022-05-29 10:43:38 发布

阅读量2.4k

点赞数

本文链接：https://blog.csdn.net/sdlcwangsong/article/details/24711437

版权

该博客主要介绍了如何爬取www.amazon.com网站的商品分类URL，包括使用handle.py解析网页提取URL，urlsh.sh获取源代码，get_url.py整合功能。此外，还提供了文件除重和合并的命令行操作方法。

摘要由CSDN通过智能技术生成

文件分类：

handle.py

get_url.py

urlsh.sh

seed_url.good

amazon.good

handle.py文件功能为解析网页源代码提取url

#!/usr/bin/python
import sys,re
#handle.py

patt=re.compile('href="\/s\?ie=UTF8&page=1&rh=n%3A([0-9]*?)">')
url=[]


f=open(sys.argv[1])
f_w=open("amazon.good",'a')
while True:
        line=f.readline()
        if not line:break
        url.append(re.findall(patt,line))
for ur in url:
        for u in ur:
                f_w.write('"http://www.amazon.com/b?ie=UTF8&node='+u+'"\n')
                #f_w.write(u+'\