pyhton3淘宝爬取评价内容


import urllib.request

import re



def urlopen(url):

    
    req = urllib.request.Request(url)

    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")

    html = urllib.request.urlopen(req)

    html = html.read()

    return html



def cont(url):

    html = urlopen(url)

    html = html.decode("utf-8")
    
    biao = re.compile(r'(\U0001f60a)|(\U0001f603)|(\U0001f642)|(\U0001f44d)|(\u2b50)|(\U0001f917)|(\U0001f637)|(\U0001f913)|(\U0001f602)|(\U0001f61b)|(\uff65)|(\U0001f44f)|(\U0001f613)|(\U0001f648)|(\U0001f44e)|(\U0001f44c)')
    #这上面的是表情 代码 应该还有很多 遇到就加上去吧  不然出错 这表情真很头疼

    html = re.sub(biao,'',html)
    #这个代码就是用re.sub 把表情替换成了空白
    htm = html

    aa = re.findall(r'(....年..月..日 ..:..)',htm)
    #提取时间  这个好做

    cc = re.findall(r'(.\*\*\*.)',htm)
    #这个是提取ID  也很有规律

    content = re.findall(r'(content":")(.{0,300})(","rateId)',htm)
    #这个是内容,我用了内容两边的标签 
    cont = []
    for i in content:
        i = i[1]
        cont.append(i)
      #内容用了3个组所以需要把需要的提取出来,
    content = cont

    img =re.findall(r'thumbnail":"//img.alicdn.com/imgextra/.././.+?jpg","url',htm)
    #这是评价图片 已经提取出来 不过我没下载  需要的可以直接用这个

    ff=zip(aa,cc,content)
    #zip() 这个内置函数 就把ID 时间  内容 同时输出 如果列表数量不一样 就按最短的输出

    for i in ff:
        print(i)


        
for i in range(1,60):

    url = 'https://rate.taobao.com/feedRateList.htm?auctionNumId=15088074383&userNumId=44607594189&currentPageNum={}'.format(i)

    print(i)
    
    cont(url)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值