![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫小案例
文章平均质量分 55
代码打碟手
个人博客网址:http://www.jzfblog.com
展开
-
使用Urllib2制作有道翻译器
今天是学习爬虫的第二天了,看了网上很多初学者都喜欢爬取字典翻译。确实,有一个自己随时随地使用的翻译神器,省去了打开浏览器输入网址的那些繁琐,也腾出了不少时间。在这里我选择的是有道翻译,相比于百度翻译来说,它的特点就是使用了post请求来获取json格式数据,而百度翻译使用的是get请求。因为博主暂时还处于爬虫的入门阶段,而网上的入门资料和图书馆借阅的书籍还是python2相对多一些,...原创 2018-08-09 14:40:57 · 270 阅读 · 0 评论 -
Urllib2库+正则爬取内涵段子
内涵段子前段时间发生的事情,想必大家都有所耳闻,我本人也是非常喜欢看段子的。但这并不能阻止我想看段子的脚步,幸好,给大家推荐一个网站,叫做内涵吧,里面也有非常丰富的段子内容。下面就以内涵吧为例爬取所有段子,可供离线观看。 先分析请求的url地址 第一页段子url:https://www.neihan8.com/wenzi/index.html 第二页段子url:h...原创 2018-08-09 14:44:12 · 177 阅读 · 0 评论 -
Requests库+正则爬取猫眼电影Top100
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 流程框架 1.抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。 2.正则表达式分析:根据HTML代码分析得到电影的名称,主演,上映时间,评分,图片链接等信息 3.开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度 4.保存至文件:通过文件的...原创 2018-08-09 14:45:06 · 395 阅读 · 0 评论 -
分析Ajax抓取今日头条街拍美图
声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址https://cuiqingcai.com/ 实现流程介绍 1.抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果 2.抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页信息 3.下载图片与保存数据库:将图片下载到本地,并把页面信息及图片URL保存至MongoDB 4.开启循环及...原创 2018-08-09 14:53:03 · 232 阅读 · 0 评论