爬虫学习
今天周几
这个作者很懒,什么都没留下…
展开
-
练习小项目:微博全站用户info抓取
作为大学毕业后就没有摸过程序的我,借着疫情自学爬虫2个月的菜鸡,写这个项目的确花费了不少的时间,翻阅了无数技术博客,官方文档,包括github上的一些项目(大神写出的代码可读性确实很高,值得学习),不过鉴于爬虫的时效性,很多项目都已经不能用相同的思路去实现了。经过自己的反复尝试,通过以下思路实现微博全用户的爬取,并做了简单的数据展示。 和大家分享分享我的思路,共同学习,共同进步。 自定需求 门户网站:https://weibo.com/ 使用技术:scrapy,pyecharts,flask,redis,原创 2020-05-14 15:30:44 · 345 阅读 · 0 评论 -
练习小项目:音乐爬虫
学习爬虫也有些日子了(虽说还是个菜鸡),最近找工作也是各大网站投递,然后都石沉大海。实在闲来无事,想着再写写小项目练练手吧,Lets go<( ̄︶ ̄)↗[GO!] 自定需求 门户网站:http://music.taihe.com/ 使用技术:requests,xpath,re 爬取内容:输入某歌手名,爬取下载该歌手所有歌曲(律师函警告) 开始吧 首先第一步,还是分析网站结构,个人觉得这...原创 2020-05-08 14:18:24 · 344 阅读 · 0 评论 -
练习小项目:微博爬虫
自学爬虫近1个月,基本的库啊框架啊基本也都囫囵吞枣的过了一遍,感觉网上视频里各大名师砖家带着练习的项目,基本都是毫无反爬机制的NC网站,感觉若是在实际工作中(没工作过-。-),怕是没有这么容易的网站要你爬取的吧。个人一点愚见,某网站数据有分析价值,才会有人爬,因为给爬多了运营小姐姐很生气,该网站才会去研究怎么反爬,于是反反爬,于是反反反爬,于是反反反反爬。。。。。连selenium这么低效的东西都...原创 2020-05-05 04:09:17 · 604 阅读 · 0 评论