这是我的第一个博客文章,关于爬取淘宝一个商铺 小米8 手机评论的Python爬虫

我第一次在csdn上面传属于自己的文章还是有点小激动的,毕竟是以前都是看大佬
们的文章来提高自己的技术,现在也到了我来反馈给大家的时候了(可能技术不能入某些大牛的法眼,但是我还是希望大家能多多提提意见):233333333

下面是代码的展示:

	import  requests
	import json
	import re
	f = open('G://爬虫的文件/白水开数码_xiaomi8_评论.txt','w+',encoding='utf-8')#这个地方自己改
	cookie = “”  #这个一定要填写自己的账号登录以后的真实的url里面的cookie号
	head = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
	        'cookie':cookie}
	urls=['https://rate.taobao.com/feedRateList.htm?auctionNumId=576901329704&userNumId=162432847&currentPageNum={}&pageSize=20'.format(i)for i in range(1,2000)]#这个是淘宝商铺‘白开水数码’关于小米8商品的url,记住这个url是通过异步加载技术获取的,要自己f12慢慢找,我是在js文件里面找到的。
	ls = 0;#用来记录有多少条评论
	for url in urls:
    cont = requests.get(url,headers = head).text
	    cont = re.findall(r'\((.*?)\)', cont)[0]
	    #print(cont)
	    try:
	        js = json.loads(cont)
	        js = js['comments']
	        for i in js:
	            #i = i['content']
	            j = i['date']
	            k = i['content']
	            l = i['rateId']
	            #print(i)
	            ls = ls+1
	            s = "id:"+str(l)+"___"+"time:"+j+"___"+"content"+k+" --------- " +"第"+str(ls)+"条评论"
	            f.writelines(s + '\n')
	            print(s)
	    except:
	        pass	
	    pass
	f.close()

这个主要用的是Python里面的requests库,通过headers模拟浏览器,以及cookie解决了模拟登陆的问题,同时f12在js文件里面找到了真正的url地址复制下来,然后用range来创建多个url,for循环遍历这些url,在for循环里面我们用try,expect来解决爬虫时可能发生的故障,导致程序中断,通过正则我们可以找到我们需要的元素的一个大体,它是一个json数据,然后就是加载json里面的comment,遍历comment,提取出想要的用户id,发布评论的时间和内容等等,然后就将这些东西写入到你自己创建的文件里面去吧!祝愿你好运

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值