爬杜蕾斯官方微博,内容太刺激了吧

点击上方“AI算法与图像处理”,选择加"星标"或“置顶”

做积极的人,坚持自己的梦想640?wx_fmt=jpeg

本文转载自:恒仔,https://zhuanlan.zhihu.com/p/35920573

本文仅供娱乐

导语

Input Title

杜蕾斯的广告文案一直是业界翘楚,尤其是用诙谐的语句描写不可描述之事时的那种会心一笑,于是我就想知道,杜蕾斯这些年发了哪些有趣的广告。

本文参考的思路:https://www.cnblogs.com/dmyu/p/6034634.html

640?wx_fmt=jpeg

效果展示

Input Title


一共爬得原创微博1713条,图片551张:(这里虽然是爬取原创微博,但感觉算法的部分还是不太理想,图片的数量与预估的差很多,先留个坑,之后再填上)

640?wx_fmt=jpeg杜蕾斯的微博文字

640?wx_fmt=jpeg杜蕾斯的微博图片

爬虫思路

Input Title

讲讲爬虫的大概思路(具体看原文代码):

  • 使用Chrome模拟手机登录微博,登录之后从Network中复制下自己的cookie

  • 获得想要爬取对象的User ID

  • 先从源码中找出该User的微博有多少页(H5没有页码的概念了,动态加载,爬起来会比较困难,但是我也没有搞清楚手机浏览微博页面的页码是如何存在的,再留个坑/(ㄒoㄒ)/~~)

  • 为了防止被服务器拒绝爬虫,可以设定每爬取一部分页面,就休眠一分钟之类

  • 用requests爬下每一页的源码,然后用BeatifulSoup来保存html并匹配关键标签如[href][a]等

  • 文字部分可以直接保存为文档,而图片则可以先将图片的连接都存进文档中,然后再来下载其中的每一张图片

  • 图片经常会有下载失败的情况,可以从日志或者自己再将失败的连接存下来继续下载

挑出一些微博文字和图片给大家看看

3: 好男人不会让等待的爱人心越来越慌,孤单单看不见性福回来的方向。关键时刻不要等套来,趁着@唯品会 打折备点货[doge]http://t.cn/Rm1Eub5 	
82: 每当有了你,我的身体就开始满血运行。 	
109: 《滑落》 晨间的露珠,从绿叶上滑落。滑过,不想滑落,我们是和它们反向的爱。 	
121: 你是我的 半截的诗 半截用心爱着 半截用肉体埋着 你是我的 半截的诗 不许别人更改一个字——海子 	
185: 我们珍视一切承载那些瞬间的物品。并将这些厚厚的爱,以最薄的方式呈现在#杜蕾斯AiR爱情薄物馆#。杜蕾斯官方微博的秒拍视频 	
227: 戊戌年,吉犬年,好运不止长长长长长长长长长长长一点[doge][doge][doge] 	
245: 如何让亲戚朋友不再问“什么时候谈对象”——不动声色地从钱包里拿出一枚“草莓味口香糖”[并不简单] 	
267: 今天没遇到也别着急,总有一天能遇到和自己严丝合缝的人。 	
377: 想把自己的全世界,零星地给你。想和你生活在一起,想于清晨和夜晚,在你的身体内起床,在你的身体内躺下。 	
391: 面对新的一天时,当胸口又有了烦人的空茫,只有爱人灼热的身体依偎在怀里,它才能被填满。 	
394: 契合的爱侣就像一个灵魂寓于两个身体,两个灵魂有着相匹配的思想,两颗心的跳动是一致的。而肉体的交融,是为了让灵魂相遇。 	
399: 没有你,我丢失了性欲、购物欲、随心所欲。 	
472: 喜欢你呐,是一件容易令人上瘾的事。 	
633: 不论天气,与你的每一日都适合翻云覆雨@墨迹天气 http://t.cn/RjdefZc 	
685: 你来人间一趟,务必要谈一次20来岁的爱情试试看。 	
692: 秋冬的早晨醒来总是口干舌燥,大概是欠吻。 	
1079: 我的被子很空,你什么时候来帮我填一下?@ 	
1293: 我能想到最浪漫的事,就是和你在床上一起慢慢变老。 	
1549: 想和你做尽无聊之事,想在你身上虚度光阴。 	
1619: 如果等的人是你,迟一点出现也没关系,迟很多不行。 

人工挑选的效率还是差,之后做实践的朋友们,可以考虑先过滤一下数据(例如:杜蕾斯有#话题#的博文一般都不是文案),将与粉丝的互动根据某条微博的评论数、点赞数等来判断这条微博的热度(有趣度)。

选一些杜蕾斯的图片:

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

总结

Input Title

  • 总体上可以将某个微博主的文字和图片抓下来,但是组图没有做判断,页数的算法不够精准

  • 微博API已经改变,需要换一种方式

  • 爬虫过于频繁被服务器拒绝的问题要多加考虑,现在也有不少大牛在做这方面的工作

  • 文字部分的处理比较容易,但图片的识别上(挑选更有趣的图片,貌似也能用评论和点赞数来挑选),额,还是之后再想了

  • 可以用这个来分析一下自己关注的人的动态啥的

github链接:https://github.com/wenhengqiu/Python_Durex_Weibo/blob/master/durex_weibo.py

640?wx_fmt=jpeg

好文推荐:

  • 《》

  • 《》

  • 《》

  • 《》

  • 《》

640?wx_fmt=png

加群交流

扫码添加助手,可申请加入AI_study-目标检测交流群。一定要备注:目标检测+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡西),不根据格式申请,一律不通过。

640?wx_fmt=jpeg

喜欢就点个"在看"呗^_^

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值