爬虫精进
文章平均质量分 53
Algh206
这个作者很懒,什么都没留下…
展开
-
爬虫第7课课后练习-用扇贝网做一个自动生成错词本
第一步:分析需求,明确目标扇贝网:https://www.shanbay.com/已经有一个测单词量的功能,我们要做的就是把这个功能复制下来,并且做点改良,搞一个网页版没有的功能 ———— 自动生成错词本。在这一步,请阅读文档的同时打开浏览器的扇贝网,跟着我一步步来。第二步:分步讲解,书写代码 (。▰‿‿▰。) ❤(0). 选择题库。写这个程序,要用到requests模块。先用requests下载链接,再用res.json()解析下载内容。让用户选择想测的词库,输入数字编号,获取题库的原创 2021-08-13 14:35:50 · 398 阅读 · 0 评论 -
第6课课后练习-爬取豆瓣TOP250电影并用Excel表格保存
第一步:分析问题,明确结果问题需求就是把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果是存储在csv和Excel中第二步:书写爬虫代码抄写代码就可以啦回顾下第三关的爬虫代码for x in range(10): url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter=' res = requests.get(url) bs = bs4.Beauti.原创 2021-08-09 10:52:18 · 1085 阅读 · 1 评论 -
爬虫第5课-从QQ音乐上爬取周杰伦前5页歌词
第一步:分析问题,明确目标需求就是把关卡内的代码稍作修改,将周杰伦前五页歌曲的歌词都爬取下来,结果就是全部展示打印出来。第二步:写代码Network - XHR-client_search - Headers - Query String Parameters , 观察里面参数的变化怕你没记住,可以再又偷偷看一下哦,关卡内需要修改的代码:import requestsurl = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.原创 2021-08-06 11:11:04 · 755 阅读 · 0 评论 -
爬虫第3课 -豆瓣TOP250电影爬取
第一步:分析问题,明确结果问题需求就是把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来第二步:思考要用到的知识要爬取“序号/电影名/评分/推荐语/链接”这些信息,我们已经学习了用requests.get()获取数据,BeautifulSoup库解析数据,find()和find_all()提取数据,还有呢,观察下,一共10页,我们还要加个for循环对吧~第三步:书写思路一代码先爬取最小共同父级标签 <li 然后针对每一个父级标签,.原创 2021-07-30 17:15:13 · 842 阅读 · 0 评论 -
爬虫第2关 -爬取文章评论
写代码~复习了所有知识点,一切都准备就绪,那就开始写代码吧!你需要爬取的是博客【人人都是蜘蛛侠】中,《未来已来(四)——Python学习进阶图谱》的所有文章评论,并且打印。文章URL:https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/文章代码import requests # 调用requests库from bs4 import BeautifulSoup # 调用BeautifulSoup库.原创 2021-07-28 11:48:38 · 419 阅读 · 0 评论 -
爬虫第1关练习修改网页样式
写代码吧~复习了所有知识点,一切都准备就绪,那就开始写属于你的网页吧!我已经把网页的HTML源代码准备好了,你直接在上面修改就好。现在,请把网页这个书院不太冷5.0修改为你喜欢的模样。必做:1.修改网页标题2.增加至少一本书的描述3.修改网页底部选做:修改已有书籍的描述增加多本书的描述自由地在HTML文档上修改任意内容<!DOCTYPE html><html> <head> <meta http-equiv="C.原创 2021-07-28 11:36:54 · 327 阅读 · 0 评论 -
爬虫第0关练习爬图片
写代码吧!题目要求:获取下面的图片,并储存图片。完成存储后,重新刷新页面,即可在【文件】内看到图片。import requestsres=requests.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-content/uploads/2019/01/cropped-cobweb-959578_1920.jpg')pic=res.contentk=open('110.jpg','wb')k.write(pi.原创 2021-07-28 10:56:37 · 156 阅读 · 0 评论