这是我的第一个博客文章，关于爬取淘宝一个商铺小米8 手机评论的Python爬虫

本文链接：https://blog.csdn.net/qq_42495524/article/details/84556696

我第一次在csdn上面传属于自己的文章还是有点小激动的，毕竟是以前都是看大佬
们的文章来提高自己的技术，现在也到了我来反馈给大家的时候了（可能技术不能入某些大牛的法眼，但是我还是希望大家能多多提提意见）：233333333

下面是代码的展示：

	import  requests
	import json
	import re
	f = open('G://爬虫的文件/白水开数码_xiaomi8_评论.txt','w+',encoding='utf-8')#这个地方自己改
	cookie = “”  #这个一定要填写自己的账号登录以后的真实的url里面的cookie号
	head = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
	        'cookie':cookie}
	urls=['https://rate.taobao.com/feedRateList.htm?auctionNumId=576901329704&userNumId=162432847&currentPageNum={}&pageSize=20'.format(i)for i in range(1,2000)]#这个是淘宝商铺‘白开水数码’关于小米8商品的url，记住这个url是通过异步加载技术获取的，要自己f12慢慢找，我是在js文件里面找到的。
	ls = 0;#用来记录有多少条评论
	for url in urls:
    cont = requests.get(url,headers = head).text
	    cont = re.findall(r'\((.*?)\)', cont)[0]
	    #print(cont)
	    try:
	        js = json.loads(cont)
	        js = js['comments']
	        for i in js:
	            #i = i['content']
	            j = i['date']
	            k = i['content']
	            l = i['rateId']
	            #print(i)
	            ls = ls+1
	            s = "id:"+str(l)+"___"+"time:"+j+"___"+"content"+k+" --------- " +"第"+str(ls)+"条评论"
	            f.writelines(s + '\n')
	            print(s)
	    except:
	        pass	
	    pass
	f.close()

这个主要用的是Python里面的requests库，通过headers模拟浏览器，以及cookie解决了模拟登陆的问题，同时f12在js文件里面找到了真正的url地址复制下来，然后用range来创建多个url，for循环遍历这些url，在for循环里面我们用try，expect来解决爬虫时可能发生的故障，导致程序中断，通过正则我们可以找到我们需要的元素的一个大体，它是一个json数据，然后就是加载json里面的comment，遍历comment，提取出想要的用户id，发布评论的时间和内容等等，然后就将这些东西写入到你自己创建的文件里面去吧！祝愿你好运