爬虫项目实战
阿优乐扬
阿优乐扬是一种追求,一种标准,一种态度,一种精神;阿以至优,乐享于扬!2017级贵州财经大学信息学院学生,主修专业信息管理与信息系统,辅修专业金融学。学习方向为数据挖掘与数据分析,欢迎交流学习13124677419
展开
-
python爬虫之爬取《书趣阁》小说教学
前言: 这次的爬虫难度系数不大,相对于我上次讲解的课程了来说有很好的验证和过度的效果,但是却有几个较新的知识点。包含文本解码,封装方法,写入txt,链接拼接等等,这也是我选择《书趣阁小说》来教学的原因。特别是实现它的逻辑,可以用到很多的地方,这些都是可以带来的收获!文章目录1、请求服务器1.1、分析网页1.2、获取html文件1.3、解码2、提取并保存信息2.1、提取内容2.2、写入txt2...原创 2020-04-16 23:41:55 · 1864 阅读 · 0 评论 -
python爬虫之爬取微博《肺炎患者求助》超话信息
学校有个老师想研究微博《肺炎患者求助》的文本信息,他给了我一个PC端的链接,找我帮忙写爬虫,把链接上所有求助信息全部爬下来,我查看一共有21页,日期为2020年2月1日~2020年3月13日;经过一番检查后,我决定自己从移动端网页入手,其一:因为我上个月爬取过微博的《战疫情》,可以节约很多时间去分析网页结构;其二:移动端使用的是ajax加载,请求得到json数据,速度快得很多。在这里我就不去详细...原创 2020-04-08 19:32:28 · 2745 阅读 · 2 评论 -
学习python爬虫看一篇就足够了之爬取《太平洋汽车》论坛及点评实战爬虫大全
前言: 这也是一篇毕业论文的数据爬虫,我第一次看见《太平洋汽车》的点评信息时,检查它的网页元素,发现并没有像《汽车之家》那样的字体反爬技术,所有就初步判断它没有很强的反爬虫技术,大不了就使用selenium库自动化实现爬虫呗。但是我确因为这样一个网页写了6种爬虫手段,一直在与它的反爬虫技术对抗,虽然最后我完成了任务,但是感觉并不是很完美,和其他网站的爬虫相比起来,它的运行速度有点慢,也不敢快。就这样收手吧,通过它也学到了很多的知识,如果你也想学习爬虫,这篇文章可以帮你解决90%以上的网页,简单的梳理一下吧原创 2020-09-28 09:18:10 · 8896 阅读 · 8 评论 -
python爬虫项目之携程网、大众点评和马蜂窝贵州景点差评实战汇总
这是帮忙工商学院研究生院旅游管理专业的舒老师弄的一个爬虫项目,简单的说算是三个网站一起的爬虫,分别爬取携程网、大众点评和马蜂窝马蜂窝的差评信息,仅限于差评,用于论文研究;上次曾有幸受他邀请,教研究生学长学姐们怎么用python做爬虫,但是爬虫的很多反爬和信息处理能力不是一两天的时间就可以让小白入门的。比如fa这三个网站,都有一些反爬虫,特别是大众点评,字体反爬,爬虫软件几乎拿它没辙,最多拿到缺失...原创 2020-02-17 01:56:16 · 5898 阅读 · 2 评论 -
《汽车之家》字体反爬之论坛、问答、文章(新闻、车家号)及其评论爬取
1、汽车之家论坛1.1、分析网页构造1.2、获取网页源代码1.3、用户随机代理1.4、字体替换1.5、爬取论坛链接主题链接1.5.1、构造论坛首页翻页链接1.5.2、爬取论点链接1.6、实现评论内容翻页1.7、大功告成,附上源码2、汽车之家问答3、汽车之家新闻3.1、新闻内容3.1、新闻评论4、汽车之家文章4.1、爬取所有文章的链接4.2、判断新闻和车家号4.3、车家号文章4.4、代码汇总5、结果汇总截图原创 2020-02-07 16:55:24 · 5240 阅读 · 1 评论 -
selenium+opencv干掉滑动验证码
文章目录操作流程:1、找到目标2、下载验证码图片3、识别图像戳口3.1、读取本地图片并展示3.2、图片灰度处理3.3、去掉滑块黑色部分3.4、识别图像位置4、拖动滑块4.1、控制滑块滑动4.2、验证是否滑动成功v代码汇总:原创 2020-01-26 23:29:53 · 2392 阅读 · 3 评论 -
python爬虫之爬取《贵州农经网》信息
前言:期待已久的科研项目终于有眉目了,这是第一次去找研究生老师做项目,由于时间关系,老师没能给我安排上任务,叫我和一个研究生学长交接工作。第一个叫我解决的网站就是《贵州农经网》,由于有一个验证码,他也不得其解。后来发了一篇秀璋老师写的文章给我学习,这是秀璋老师在2017年写的爬虫,当时的网站还没有验证码,所以会简单很多,和如今的需求已经不一样了。贵州农经网: 中国百强农业网站,贵州省优秀政府...原创 2020-01-06 21:23:14 · 1819 阅读 · 2 评论 -
python selenium 爬取《全国农产品商务信息公共服务平台》
这是我参与的第二个项目,进程还是很顺利的。这也不断改进的过程,总共有三个版本:第一个版本是普通的爬取,对于某个农产品关键词,获取它全部的内容,后来由于我的网速太差,python运行报错了,每个农产品都拥有八百多个页面,如果重新开始,就会浪费很多时间,还不能确保它出错,于是我就改进成了第二个版本;第二个版本是对某个农产品定页爬取,爬取某个页数区间的产品,用来弥补第一个版本信息出错后,接着上次...原创 2020-01-05 23:23:52 · 2596 阅读 · 1 评论 -
python爬虫实战之爬取中国农药网
前言:这算是和研究生老师第一次正式的进行项目,虽说开始的有点随便,但是第二战还是挺成功的!自己作为一个本科生,也很幸运可以跟着学点知识,随便帮自己学院的老师出点力。还记得第一次交接任务时是很陈瑞学长,初战《贵州农经网》,还算成功,后来由于需要分类,暂时告一段落。这次的目标是《中国农药网》,这是一个农药行业门户网站,集信息资讯、农药信息,交易服务于一体的专业化、电子商务平台。我主要就是获取到某类...原创 2020-01-03 13:07:34 · 2232 阅读 · 4 评论