微博数据处理技巧

                        if '展开全文' in p.xpath('string(.)').strip():
                            try:
                                allcontenturl = 'https://m.weibo.cn/statuses/extend?id=' + str(mid_list[c_index])
                                print(allcontenturl)#cookies=random.choice(cookie_pool),
                                time.sleep(0.3)
                                jsonhtml = requests.get(allcontenturl, timeout=12).json()
                                time.sleep(0.3)
                                #有时候会报错还需要修改,查看code OK,在运行
                                # 我折腾了好久,一会怀疑response.text的编码出了问题,一会有怀疑少给了一个参数(Expecting后来发现response.status_code = 200
                                # 没问题,但是因为网络问题,导致返回的数据不是json类型,而是网络出现问题的网页格式,这个值不是json.loads()
                                # 期待的参数,所以出现错误。
                                # 以后在使用json时,最好先输出一下参数,检查一下是否符合格式,这样就能减少错误,当然也可能有别的原因。
                                # resp = json.loads(jsonhtml)[^\x00-\xff]\u4e00-\u9fa5
                                results = re.findall('[^\x00-\xff]', (jsonhtml['data']['longTextContent']))
                                print(results)
                                tmptxt = ""
                                for word in results:
                                    tmptxt = tmptxt + str(word)
                                print(tmptxt)
                                txt = tmptxt
                            except:

traceback库

            try:
                cd = CollectData(keyword=i,area=area,startTime=j,interval=interval,fileS=fileS)
                url = cd.getURL()
                print(url)
                logger.info(url)
                cd.download(url)
                logger.info("抓取成功")
                logger.info(i)
                logger.info(j)
            except Exception as e:
                logger.info("抓取失败")
                traceback.print_exc()
                logger.info(traceback.format_exc())
                logger.info(i)
                logger.info(j)
([^\x00-\xff])|([0-9])

正则表达式的或

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值