点击上方“AI算法与图像处理”,选择加"星标"或“置顶”
做积极的人,坚持自己的梦想
本文仅供娱乐
导语
Input Title
杜蕾斯的广告文案一直是业界翘楚,尤其是用诙谐的语句描写不可描述之事时的那种会心一笑,于是我就想知道,杜蕾斯这些年发了哪些有趣的广告。
本文参考的思路:https://www.cnblogs.com/dmyu/p/6034634.html
效果展示
Input Title
一共爬得原创微博1713条,图片551张:(这里虽然是爬取原创微博,但感觉算法的部分还是不太理想,图片的数量与预估的差很多,先留个坑,之后再填上)
杜蕾斯的微博文字
杜蕾斯的微博图片
爬虫思路
Input Title
讲讲爬虫的大概思路(具体看原文代码):
使用Chrome模拟手机登录微博,登录之后从Network中复制下自己的cookie
获得想要爬取对象的User ID
先从源码中找出该User的微博有多少页(H5没有页码的概念了,动态加载,爬起来会比较困难,但是我也没有搞清楚手机浏览微博页面的页码是如何存在的,再留个坑/(ㄒoㄒ)/~~)
为了防止被服务器拒绝爬虫,可以设定每爬取一部分页面,就休眠一分钟之类
用requests爬下每一页的源码,然后用BeatifulSoup来保存html并匹配关键标签如[href][a]等
文字部分可以直接保存为文档,而图片则可以先将图片的连接都存进文档中,然后再来下载其中的每一张图片
图片经常会有下载失败的情况,可以从日志或者自己再将失败的连接存下来继续下载
挑出一些微博文字和图片给大家看看
3: 好男人不会让等待的爱人心越来越慌,孤单单看不见性福回来的方向。关键时刻不要等套来,趁着@唯品会 打折备点货[doge]http://t.cn/Rm1Eub5
82: 每当有了你,我的身体就开始满血运行。
109: 《滑落》 晨间的露珠,从绿叶上滑落。滑过,不想滑落,我们是和它们反向的爱。
121: 你是我的 半截的诗 半截用心爱着 半截用肉体埋着 你是我的 半截的诗 不许别人更改一个字——海子
185: 我们珍视一切承载那些瞬间的物品。并将这些厚厚的爱,以最薄的方式呈现在#杜蕾斯AiR爱情薄物馆#。杜蕾斯官方微博的秒拍视频
227: 戊戌年,吉犬年,好运不止长长长长长长长长长长长一点[doge][doge][doge]
245: 如何让亲戚朋友不再问“什么时候谈对象”——不动声色地从钱包里拿出一枚“草莓味口香糖”[并不简单]
267: 今天没遇到也别着急,总有一天能遇到和自己严丝合缝的人。
377: 想把自己的全世界,零星地给你。想和你生活在一起,想于清晨和夜晚,在你的身体内起床,在你的身体内躺下。
391: 面对新的一天时,当胸口又有了烦人的空茫,只有爱人灼热的身体依偎在怀里,它才能被填满。
394: 契合的爱侣就像一个灵魂寓于两个身体,两个灵魂有着相匹配的思想,两颗心的跳动是一致的。而肉体的交融,是为了让灵魂相遇。
399: 没有你,我丢失了性欲、购物欲、随心所欲。
472: 喜欢你呐,是一件容易令人上瘾的事。
633: 不论天气,与你的每一日都适合翻云覆雨@墨迹天气 http://t.cn/RjdefZc
685: 你来人间一趟,务必要谈一次20来岁的爱情试试看。
692: 秋冬的早晨醒来总是口干舌燥,大概是欠吻。
1079: 我的被子很空,你什么时候来帮我填一下?@
1293: 我能想到最浪漫的事,就是和你在床上一起慢慢变老。
1549: 想和你做尽无聊之事,想在你身上虚度光阴。
1619: 如果等的人是你,迟一点出现也没关系,迟很多不行。
人工挑选的效率还是差,之后做实践的朋友们,可以考虑先过滤一下数据(例如:杜蕾斯有#话题#的博文一般都不是文案),将与粉丝的互动根据某条微博的评论数、点赞数等来判断这条微博的热度(有趣度)。
选一些杜蕾斯的图片:
总结
Input Title
总体上可以将某个微博主的文字和图片抓下来,但是组图没有做判断,页数的算法不够精准
微博API已经改变,需要换一种方式
爬虫过于频繁被服务器拒绝的问题要多加考虑,现在也有不少大牛在做这方面的工作
文字部分的处理比较容易,但图片的识别上(挑选更有趣的图片,貌似也能用评论和点赞数来挑选),额,还是之后再想了
可以用这个来分析一下自己关注的人的动态啥的
github链接:https://github.com/wenhengqiu/Python_Durex_Weibo/blob/master/durex_weibo.py
好文推荐:
《》
《》
《》
《》
《》
加群交流
扫码添加助手,可申请加入AI_study-目标检测交流群。一定要备注:目标检测+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡西),不根据格式申请,一律不通过。
喜欢就点个"在看"呗^_^